KB-Whisper förvandlar svenskt tal till text

Bandmaskiner för uppspelning av äldre radiomaterial och rullband med riksradio från 1979. Foto: Lina Löfström Baker/KB
Mer än 50 000 timmar av TV, riksdagstal och dialekter. Så ser träningsdatat för Kungliga bibliotekets nya AI-modell ut. KB-Whisper har lärt sig en bred variation av svenska och kan snabbt transkribera tal till text – vilket kan bidra till såväl en bättre sökbarhet i bibliotekets samlingar som undertexter på TV.
KB-Whisper är en tal-till-textmodell, det vill säga en AI-modell som har tränats på stora mängder data för att lära sig omvandla talat språk till text. Modellen utgår ifrån det amerikanska företaget Open AI:s modell Whisper. Andra liknande varianter har också funnits tillgängliga de senaste åren.
Men KB:s modell är den första med gedigen träning på svenska och är överlägsen sin amerikanska motsvarighet på språket. Enligt tester gör den 47 procent färre fel på ordnivå.
– Det här är en milstolpe för taligenkänning på svenska. Modellen har tränats på en mycket stor mängd svensk data och har därför en väldigt god kännedom om språket. KB-Whisper är särskilt bra på att stava rätt på svåra svenska orts- och personnamn och komplicerade termer, säger Leonora Vesterbacka, senior data scientist på KB.
Träningsdatat består av ljud och transkriptioner från ledamöternas tal under debatter i Sveriges riksdag, undertextade TV-sändningar från KB:s samlingar och inspelningar av olika dialekter från Institutet för språk och folkminnen.
Den nya AI-modellen kan tillämpas på många olika områden. Sveriges Television utforskar exempelvis möjligheterna att använda KB-Whisper för att texta sina sändningar.
Tal-till-textmodeller ligger även till grund för bland annat telefonbaserad kundtjänst. Med särskild träning på medicinska termer kan tekniken också hjälpa till att transkribera läkares diktafoninspelningar till journalanteckningar. KB-Whispers goda förståelse för svenska kan bidra till att höja kvaliteten på dessa tjänster.
Under de senaste fem åren har KB utvecklat flera välanvända AI-modeller. Det är möjligt tack vare bibliotekets uppdrag att samla in och bevara allt som ges ut i Sverige – från böcker och tidningar, till film, tv och radio.
– KB har en unik position i att utveckla demokratiskt förankrad AI som speglar alla former och variationer av svenska språket. Med hjälp av KB-Whisper planerar vi också att transkribera delar av våra radiosamlingar. På så sätt kan vi göra arkiven sökbara för forskningen och därmed låsa upp material som tidigare varit svårt att hitta, säger Leonora Vesterbacka.
(2025-02-20)
Se även AI ett paradigmskifte för Riksarkivet (2024-06-02)