Teknologi

AI lär sig skånska – kan inte förstå att det är svenska!

2024-10-10

Författare: Julia

Kungliga biblioteket (KB) arbetar för fullt med att utveckla en avancerad AI-modell för att förbättra tal-till-text-teknologin. En ny hårddisk med digitaliserade inspelningar av gamla riksdagsanföranden har just nått deras labb.

Leonora Vesterbacka, Senior Data Scientist på KB, förklarar:

– Detta är ett utmärkt träningsmaterial för att lära AI:n att förstå och bearbeta språk.

Biblioteket är inte bara fokus på vanlig svenska, utan de samlar även in exempel på olika dialekter och talvarianter för att skapa en AI-modell som alla kan använda fritt.

– Det kan handla om att diktera och transkribera patientjournaler inom sjukvården, vilket skulle underlätta arbetet enormt, säger Vesterbacka.

KB har inlett ett betydelsefullt samarbete med Institutet för språk- och folkminnen (Isof) i Uppsala. Tillsammans har de tillgång till tiotusentals timmar av inspelat tal, där de äldsta inspelningarna är över 100 år gamla.

Annette Torensjö, arkivchef på Isof, påpekar:

– Det finns fortfarande äldre personer som kanske behöver kontakta sjukhus via tal, så det här projektet är verkligen viktigt.

Man identifierar dock en brist på material från svenskar som har andra språk som modersmål. Vesterbacka betonar:

– Vi kan inte skapa en universell transkriberingstjänst som bara fungerar för dem som talar rikssvenska; vi behöver inkludera alla Sveriges invånare.

Dessutom leder denna satsning till ett bredare engagemang och medvetenhet om dialekter och språkvarianter i Sverige, samt bevarande av vårt språkliga arv.

Hör mer om hur SVT försöker få AI:n att diktera skånska i deras senaste klipp – det kan bli en riktig ögonöppnare!