Intergalaktisk arkivproblem. Skjermdump: Frå Star Wars

Romarriket, Star Wars og det som ikkje finst i arkivet …

Det er så mykje snakk om KI for tida, at ein konservativ historikar kan sette både kaffien og arkivstøvet i vrangstrupen. Samtidig er det jo også spennande. For kvar kjem grunnlaget til all denne kunstig skapte intelligensen frå, eigentleg? Frå arkivet, sjølvsagt.

Dr. philos. Mads Langnes er historikar og arbeider ved Romsdalsmuseet.

Eg skal begynne dette innlegget med ei scene frå Star Wars, og eg skal slutte med det me alle visstnok tenker på; Romarriket. Men historia er eigentleg den same.

For om me går til episode II av Star Wars, «Attack of the clones», så leitar ein av våre store heltar, Obi-Wan Kenobi (Ewan McGregor) etter vegen til ein planet som skal heite Kamino. Han går då sjølvsagt til det som i denne samanhengen må vere eit slags intergalaktisk nasjonalarkiv eller nasjonalbibliotek, men får som svar at «Den står ikkje på kartet».

Og sidan arkivaren etter lang tids leiting ikkje finn planeten i arkiva, er difor konklusjonen enkel og grei: «Det ser ikkje ut til at systemet du søker eksisterer».

Vår oppvakte ven Obi-Wan stiller då spørsmål ved om arkivet kanskje ikkje er komplett, men får følgjande bråkjekke svar av den intergalaktiske sjefsarkivaren: «Viss noko ikkje er registrert her, eksisterer det ikkje».

KI og AI

Denne historia kan også føre oss over til KI (kunstig intelligens) eller AI (artificial intelligence), som ein seier på engelsk.

Litt forenkla kan me jo seie at mykje av grunnlaget for KI er arkiv, kan me ikkje?

Som ein liten test på dette, stilte eg ChatGPT dette spørsmålet: «Hva er kunskapsgrunnlaget til informasjonen man får ut av AI?» (På bokmål sjølvsagt, og tenk dykk kvifor …)

Svaret vart då som følgjande: «Kunnskapsgrunnlaget til informasjonen som en AI som meg kan gi, er basert på en stor samling av tekstdata som er samlet inn fra ulike kilder. Dette inkluderer bøker, artikler, nettsider, forskningsrapporter, nyheter og andre former for tekstbasert informasjon. Dataene som brukes til å trene meg, er hentet fra et bredt spekter av emner og disipliner».

Spør du meg, er svaret berre ein annan måte å formulere eitt av mine favorittord på: arkivet!

Så kva er arkiv, eigentleg?

Arkivhistorie

Det interessante med fenomenet eller funksjonen arkiv, er jo at det i praksis berre er eit utval av kunnskap som er bevart for ettertida. Dette utvalet kan vere godt begrunna, eller det kan vere reine tilfeldigheiter som har gjort kva som er bevart hjå privatpersonar, i bibliotek, arkivinstitusjonar og museum.

Noregs eldste bevarte brev er frå 1189 vart sendt frå pave Clemens 3. og gjekk til dei geistlege i Noreg. Kjelde: Riksarkivet

I andre land har me jo sjølvsagt alt frå eldgamle papyrusrullar til store arkivsamlingar etter mektige riker, medan me nissane her på berget stort sett ikkje har arkivsaker før frå dei siste tusen åra. Ser ein til dømes til Riksarkivet, vår «nasjonale hukommelse», så er det eldste norske brevet som er bevart frå 1189. Brevet vart sendt frå pave Clemens 3. og gjekk til alle geistlege i Noreg, og galdt at dei ikkje måtte delta i krigen med våpen i hand, men berre for å gje syndforlatelse og dele ut sakrament til dei døyande.

Leitar ein vidare på dei mange kilometrane med hyller i arkivmagasina til Riksarkivet, finn ein også ei heil mengde arkivdokument som gjeld Romsdal frå 1300-talet og frametter. Til dømes er det eldste bevarte dokumentet frå det som ein gong var ein kjøpstad på Veøya i Romsdalsfjorden, frå 1343.

Riksarkiv og statsarkiv

Utfordringa med kunnskap, er at den gjerne er flyktig. For sjølv om det vart skapt ein god del dokument i Noreg i middelalderen, er det berre eit utval som er bevart for ettertida. Frå 1600-talet og framover er det derimot langt meir, i takt med at det også vart skapt meir arkivmateriale. Frå denne tida fekk me jo ein langt meir utbygd offentleg sektor, med til dømes amtmenn (fylkesmenn), fogdar og sorenskrivarar – samt at også prestane etter kvart vart pålagt å føre såkalla kyrkjebøker over alt frå fødsel til død i sine prestegjeld.

Går me til Riksarkivet i Oslo eller dei regionale statsarkiva (for Møre og Romsdal sin del soknar me saman med Trøndelag til statsarkivet i Trondheim), finn me difor enorme mengder med arkivmateriale frå 1600-talte og frametter, der mengda berre aukar og aukar frå hundreår til hundreår. Med tanke på KI er likevel dette delvis eit uutnytta materiale, då berre ein liten brøkdel av dette er digitalisert og tilgjengeleg inn i dei nesten uendelege minnebankane KI byggjer på.

Men ting er i endring. Både arkivinstitusjonar, bibliotek og andre forskingsinstitusjonar er sjølvsagd i full gang med å utarbeide modellar for maskinlesing av eldre handskrift, og trass i mykje krusedullar og gulna protokollsider, byrjar ein no å få verktøy som kan skanne og «avkode» dei enorme mengdene med gamle protokollar og arkivdokument. Det vil likevel framleis vere stort behov for arkivarar og historikarar ikkje berre for å kunne lese og tyde, men ikkje minst for å fortolke tekstene i gamle dokument. Og den dagen dette materialet også blir tilgjengeleg for KI, då vil eit slikt verktøy verkeleg bli nyttig og relevant også for historikarane.

Biblioteket i Strahov-klosteret i Praha har bøker og arkivsaker tilbake til 800-talet. Kjelde: Wikimedia Commons.

Bibliotek

Når det gjeld trykte/publiserte bøker, er ein komen mykje lengre. Og det er jo sjølvsagt også enklare å trene eit dataprogram til å gjenkjenne og lese trykte bokstavar, enn handskrifta til ein skjelven prest eller fut frå 1700-talet! Noreg er vel også av dei landa som faktisk har kome lengst på dette området, då Nasjonalbiblioteket har digitalisert så godt som alt som har kome ut av trykte bøker i Noreg frå dei første bøker til i dag. I tillegg er kring 90 % av alle norske aviser frå tidenes morgon digitalisert, noko som utgjer millionar av avisutgåver. Ikkje alt av dette er opent tilgjengeleg, men mesteparten er mogleg å få tilgang til etter søknad.

Quod non est in actis …

Så sjølv om KI i dag bygger på enorme databasar og hav av informasjon, er det framleis mykje som står att før chatbot-ane verkeleg sit på «all» kunnskap som grunnlag for å hoste opp sine meir eller mindre gode svar — på det som kanskje også i like stor grad er meir eller mindre gode spørsmål frå brukarane.

Eg starta jo dette innlegget med ein episode frå Star Wars, og kan avslutte den med ei liknande historie frå Romarriket. Eit kjent juridisk uttrykk frå den romerske rettslæra er jo at «Quod non est in actis non est in mundo». Og kva tyder det? Jo, at «det som ikkje finst i arkiva, det finst ikkje i verda»!

Så med det, frå Imperium Romanum, Romarriket, til Star Wars: Det som ikkje finst i arkivet, det finst ikkje i verda. Og om det ikkje finst i arkivet og i verda, tvilar eg også på at KI kan bygge vidare på det. Om me vil at KI skal tene oss godt, så hugs difor på at det ikkje berre er tech-nerdane i Silicon Valley som er heltane, men også arkivarane  som sit der og «kveles fast af støv», som vår første riksarkivar Henrik Wergeland skreiv i sitt dikt om «Archivaren – Gud bevar’en»!

–> Lise Lillebrygfjeld Halse, Arve Hjelseth, Knut Peder Heen og Mads Langnes skriver fast i Panorama.