Så kan AI tränas att snabbt analysera historiska dokument
Genom maskininlärning kan AI tränas att snabbare analysera handskrivna historiska dokument som kyrkböcker, domböcker och mantalslängder. Florian Westphal vid Blekinge Tekniska Högskola har utvecklat metoder som gör träningsprocessen fyra gånger så effektiv.
I dag är det lätt för allmänheten att komma åt äldre handskrivna dokument. De finns ofta som högupplösta bilder hos olika arkiv och blir lättåtkomliga via Internet. Behovet att analysera bilder och dokument är därför ett växande område och har fått mycket uppmärksamhet på senare år.
Utvecklingen har framför allt drivits framåt av kraftfulla AI- och maskininlärningstekniker som neurala nätverk, även kallat deep learning. Utmaningen med denna teknik är dock att det krävs mycket data för att träna nätverken och att de är beräkningskrävande.
Att analysera historiska handskrivna dokument är speciellt utmanande eftersom texten kan ha blivit blekt, dokumentet skadat eller att text från baksidan syns igenom.
Florian Westphal har i sin avhandling i datorsystemteknik vid Blekinge Tekniska Högskola tittat på två utmaningar när det gäller deep learning: dels hur beräkningarna kan göras mer effektiva, dels hur man kan göra själva träningen mer effektiv till exempel genom att inte träna på all data utan enbart träna vissa delar.
Han har utvecklat tekniker och metoder som kan göra träningsprocessen nästan fyra gånger snabbare och som gör det möjligt att reducera mängden träningsdata med upp till två tredjedelar – utan att noggrannheten går förlorad. Han har även tagit fram en metod där användaren ger återkoppling till systemet interaktivt under träningsprocessen för att effektivisera den.
De nya teknikerna är generella men Florian Westphal har specialiserat dem för tillämpad analys av digitaliserade historiska handskrivna dokument, till exempel kyrkböcker, mantalslängder och domböcker.
Florian Westphal:
Data and time efficient historical document analysis
Institutionen för datavetenskap, Blekinge Tekniska Högskola
Disputation: 3 september 2020