Att lära datorer läsa historiska dokument

Mycket forskning inom humaniora bedrivs genom att studera handskrivna källor. Det är en källa rik på information som kan leda till nya insikter om vårt förflutna, men dessa insikter kan vara svårfunna. Nuvarande metodik innefattar att forskaren manuellt bläddrar genom sidorna och försöker hitta relevant information. Detta är en tidskrävande och mödosam process som begränsar mängden källor som kan användas i arbetet.

I samband med digitaliseringen av vårt gemensamma kulturarv finns det numera bilder på miljontals manuskript i arkiv och bibliotek. Denna digitala representation möjliggör användandet av datoriserade metoder för att analysera bilderna i syfte att ge forskare och lekmän nya möjligheter att analysera, visualisera och söka i samlingar av manuskript. I avhandlingen Learning based word search and visualisation for historical manuscript images berörs just de punkterna genom utvecklandet av metoder baserade på datoriserad bildanalys och maskininlärning (även kallad AI).

Första delen av avhandlingen behandlar metoder för att, med hjälp av datorer, på några minuter söka genom stora manuskriptsamlingar som tidigare skulle ha tagit åratal för historiker att genomsöka. Detta görs genom metoder för att automatiskt hitta och känna igen ord baserat på en angiven sökterm (eng. word spotting). Metoderna är till stora delar baserade på djup inlärning (eng. deep learning), som på senare år har revolutionerat bildanalysfältet. I samarbete med historiker visar vi den praktiska användbarheten av våra metoder genom att söka i en samling tidigare outforskade 1700- och 1800-tals domböcker från Snevringe härad som tillsammans består av över hundratusen sidor.

Den typ av maskininlärning sökmetoderna är baserade på kräver annoterad data för att fungera. Detta kan begränsa användbarheten, särskilt i situationer där det krävs expertkunskaper för att annotera ny data, som med historiska manuskript. För att lindra detta problem föreslår vi flera metoder för att generera annoterad data automatiskt, dryga ut den redan annoterade datan och därmed minska behovet, samt utnyttja redan delvis annoterad data som tidigare var obrukbar.

I avhandlingens andra del läggs det fram en metod för att visualisera manuskriptsamlingar via bildbaserade ordmoln (eng. word clouds). Likt den textbaserade motsvarigheten skapar metoden en bild av de representativa orden från en samling ordnat som ett moln, där storleken på ett ord är proportionellt mot ordets frekvens i samlingen. Metoden kan i en enda bild ge en överblick av innehållet i en samling, oavsett deras storlek. Detta kan exempelvis vara användbart för att undersöka en nyligen digitaliserad och outforskad samling för att få en aning om vad den innehåller.

Slutligen föreslås även en metod för att automatiskt uppskatta när manuskript var skrivna baserat på dess utseende. Att kunna ge rimliga uppskattningar på när ett manuskript var skrivet kan ge viktig kontext till hur innehållet bör tolkas. I ett experiment på Svenskt Diplomatariums huvudkartotek lyckas metoden uppnå ett medianfel på 10 år. Detta innebär att hälften av dateringarna ligger inom tio år av det korrekta året.

Arbetet fortsätter i ett nytt projekt – ”Att tilltala överheten. Suppliker som kulturarv och källa till kunskap”. Projektet syftar till att, med bland annat metoderna från avhandlingen, indexera, registrera, tillgängliggöra och utifrån vetenskapliga frågeställningar analysera en i svensk forskning underutnyttjad men rik källa: suppliker, ett annat ord för böneskrifter.

Tomas Wilkinson:
Learning based word search and visualisation for historical manuscript images
Institutionen för informationsteknologi, Uppsala universitet
Disputation: 4 juni 2019