Digitaalisten aineistojen määrä kasvaa jatkuvasti: toisaalta paperiarkistojen laajamittainen digitointi ja toisaalta syntyjään digitaalisen materiaalin aktiivisempi arkistointi synnyttävät alati kasvavia aineistokokoelmia. Koneluettava aineisto avaa uudenlaisia mahdollisuuksia yhdistelyyn, rikastamiseen ja muuhun jatkojalostukseen. Massadatan hyödyt lunastava rikastus vaatii kuitenkin kehittynyttä automatisointia, koska ihmisen tekemänä työnä aineiston käsittely jää auttamattomasti jälkeen digitaalisen aineiston tuotannosta. Tekoälyn menetelmät ovat keskeisessä roolissa aineiston kuvailun ja muun käsittelyn työvoiden automatisoinnissa.

CSC:n, Kansalliskirjaston ja Kansallisarkiston High Performance Digitisation -hanke tarttuu yhteisvoimin tekoälyn ja aineiston käsittelyn haasteeseen. Hankkeen tarkoitus on luoda muistiorganisaatioiden käyttöön palvelu, joka helpottaa aineiston käsittelyä: digitaalisen aineiston hyödynnettävyyttä heikentää metatietojen puute tai vajavaisuus ja heikot hakutoiminnot. Hankkeen tavoite on luoda älykäs annotaatioputki arkistoitujen aineistojen -  esimerkiksi sanomalehtien, kirjojen ja asiakirjojen - puoliautomaattiseen annotointiin (l. metatietojen lisäämiseen) ja rikastukseen.

Tekoälyä hyödyntävä annotaatioputki toteutetaan CSC:n supertietokoneympäristössä, josta sitä voidaan tarjota palveluna muistiorganisaatioille tai monistaa muistiorganisaatioiden ympäristöön. Automaattisen asiasanoituksen ja luokittelun työkaluna putkessa toimii Kansalliskirjastossa kehitetty Annif-ohjelmisto. Annifista voi lukea lisää sivulta annif.org.

Yhteistyöllä parempiin tuloksiin

Hankkeessa Kansalliskirjasto on toimittanut ja hankkinut aineistoa CSC:lle testikäyttöön. CSC puolestaan on tehnyt suurteholaskentaa vaativia testejä näillä aineistoilla ja suositellut toimivia ratkaisuja sekä uusia algoritmeja käytettäväksi Annifissa. Näin on päästy kartoittamaan ja parantamaan Annifin suorituskykyä: asiasanaehdotusten laatu on parantunut merkittävästi mm. hankkeen myötä käyttöön otettujen Omikuji-algoritmien ansiosta.

Hankkeessa on tekeillä myös käytännönläheinen selvitys (konseptitodistus, Proof of Concept) Annifin integroimisesta Kansalliskirjaston olemassa oleviin kuvailuprosesseihin. Tämä on linjassa myös Kansalliskirjaston metatietovision kanssa, jonka mukaan kuvailussa tulisi suosia puoliautomaattisia järjestelmiä –  joilla ei siis korvata ihmistä, vaan tarkoitus on sujuvoittaa kuvailutyötä. Metatietovision mukaan näiden järjestelmien tulisi myös käytettäessä oppia ihmisen valitsemista käsitteistä.

Selvityksessä kartoitetaan nykyiset prosessit ja tehdään ehdotuksia Annifin roolista osana niitä. Lisäksi selvitys kuvaa palvelun parhaat päivitysprosessit, mallien ja sanastojen muutostenhallinnan ja käyttöoikeuksien hallinnan. Selvitys toimii jatkossa alustavana työsuunnitelmana käytännön käyttöönottotyölle.

Kansalliskirjasto ja CSC laativat yhteistyössä myös yleistasoisen kuvauksen (nk. whitepaper) koneoppimisen menetelmien käytöstä automaattisen kuvailun palvelussa osana Kansalliskirjaston ja muiden muistiorganisaatioiden toimintaa. Kansallisarkiston tavoitteena hankkeessa on massadigitoinnin yhteydessä (esim. automaattisen tekstintunnistuksen kautta) syntyvän materiaalin käsittelyn menetelmien kehittäminen.

High Performance Digitisation -hanke on yhteisrahoitettu Euroopan unionin Verkkojen Eurooppa -rahoitusvälineestä. CSC:n hallinnoiman hankkeen lisäksi Kansalliskirjasto ja Kansallisarkisto ovat työskennelleet omaa rahoitustaan käyttäen. Hankkeen tuotokset ovatkin sovellettavissa myös laajemmin eurooppalaisissa muistiorganisaatioissa ja kuvailutietojen osalta huomioidaan Euroopan Dataportaalin Metadata Quality Assurance (MQA) -vaatimukset.

Hankkeen tavoitteena on automaattisen sisällönkuvailun palvelun kehittäminen ja käyttöönotto Kansalliskirjastossa. Annif on ollut testikäytössä keväästä 2020 alkaen Vaasan yliopiston julkaisuarkistossa Osuvassa, jota Kansalliskirjasto ylläpitää. Integraation jälkeen syöttölomakkeen käyttö etenee seuraavasti: opiskelija (tai tutkija tai muu kirjoittaja) syöttää tekstin, joka lähetetään rajapinnan kautta Annifille. Opiskelija voi hyväksyä tai hylätä Annifin ehdotukset sekä lisätä omia asia- tai avainsanoja. Annifin ehdotusten laadunvarmennusta ja mahdollista jatkokoulutusta varten ehdotetut ja käyttäjän valitsemat asiasanat tallennetaan.

Esittelyvideo Osuva-integraatiosta on julkaistu Doriassa. Samankaltainen Annif-integraatio on ollut käytössä pitkään Jyväskylän yliopiston JYX-arkistossa, jonka antama palaute Annifin käytöstä on ollut positiivista. JYX:in käyttökokemuksista voi lukea lisää Ari Häyrisen Kirjastoverkkopäivillä 2019 pitämästä esitelmästä (pdf).

 

Tulokset ja tulevaisuuden näkymät

Tulevaisuudessa Annif otetaan käyttöön muissa Kansalliskirjaston ylläpitämissä julkaisuarkistoissa. Kansalliskirjasto on myös lanseerannut Finto AI -palvelun, joka on Annifin tuotantokäyttöversio. Tämän laajempi Annifin käyttö, etenkin tässä projektissa suunniteltu annotaatioputki, jää tarkemmin pohdittavaksi projektin jatkoon – toivomme toki projektin ympärille rakentuneen hyvän yhteistyön jatkuvan.

Hankkeen taustalla ei ollut aiempaa automaattisen kuvailun yhteistyötä eri osapuolten välillä, joten nopeasti ja sujuvasti käynnistynyt yhteistyö kertonee aiheen ajankohtaisuudesta ja erilaisten toimijoiden yhteistyön tarpeellisuudesta. Hanke on edennyt ripeästi ja pitkälti aikataulussa, mutta valitettavasti tuotannollistamisen aloittaminen viivästyi koronapandemian ja rekrytointihaasteiden vuoksi. Näistä syistä hanketta jatkettiin vuoden 2020 loppuun asti ja tällä hetkellä osapuolet selvittävätkin mahdollisuuksia hedelmällisen yhteistyön jatkamiseen.

Luonnollisen kielen käsittelyn (engl. natural language processing, NLP) -tekniikoiden kehitys hankkeen aikana on ollut huimaa. Suurimman palstatilan on vienyt OpenAI-yhteisön GPT-neuroverkkomalli, mutta automaattisen kuvailun osalta oleellisempaa on ollut mm. BERT-mallien kehittyminen. Onkin odotettavissa, että luonnollisen kielen käsittelyn menetelmien tarkkuus ja kattavuus tulee kehittymään ripeästi myös jatkossakin ja tässä kehityksessä mukana oleminen mahdollistaa entistä parempia automaattisen käsittelyn työvoiden kehittämisen.

Hankkeen aikana palvelun kehittäminen saadaan vietyä pitkälle ja käyttöönotosta saadaan alustavia kokemuksia. Varmasti kuitenkin tekoälyä käyttävien automaattisten prosessien osalta tie on vasta alussa: uudenlainen toimintamalli vaatii pitkää kehitystyötä ja jatkuvaa oppimista tulevien vuosien aikana. Ihmisten toimintaa tukevan tekoälyn integrointi osaksi muistiorganisaatioiden toimintaa ja toisaalta käyttäjien totuttuja työtapoja sisältää lukuisia tulevaisuuden haasteita.

Lisätietoa:
Kehityspäällikkö Aleksi Kallio, CSC – Tieteen tietotekniikan keskus, aleksi.kallio (at) csc.fi
Tietoasiantuntija Mona Lehtinen, Kansalliskirjasto, mona.lehtinen (at) helsinki.fi

 

Tags: , , , , , , , , , , ,