Nye værktøjer og modeller på sprogteknologi.dk

8. september 2021

Udviklingen af sprogteknologiske værktøjer og modeller for dansk er inde i en god stime

Nye værktøjer og modeller bidrager til udviklingen af dansk sprogtek-nologi, da de åbner nye muligheder for, hvordan vi arbejder med teknologi til at bearbejde det skrevne eller talte sprog. Sprogteknologi.dk giver her et kort over-blik over de senest tilføjede sprogteknologiske værktøjer.

RøBÆRTa, Attack og Hate
I sommerferien var medlemmer af Danish Data Science Community i fuldgang med at udvikle en dansk version af Roberta, som har fået navnet RøBÆRTa. Konkret betyder det, at man har brugt træningsmetoden fra Roberta og trænet en model på danske sprogdata. Som Malte Højmark-Bertelsen, en af de medvirken-de, har udtrykt, så viser RøBÆRTa, at der i Danmark er ekspertise og kunden inden for udvikling af sprogteknologi, men vi mangler stadigvæk danske sprog-ressourcer af høj kvalitet.

Analysebureauet Analyse og Tal har gang i rigtig mange interessante projekter og har også budt ind med en open-source model for dansk. Senest har de udviklet og anvendt de to modeller Attack and Hate til at analysere 63. mio kommentarer fra 199 politikeres og 477 mediers Facebooksider. Analysen undersøger omfan-get af hadytringer i den offentlige debat på de sociale medier. Et rigtig godt ek-sempel på, hvordan sprogteknologi kan bidrage til at skabe værdi i samfundet. Du kan finde Attack og Hate på sprogteknologi.dk. Hvis du er yderligere interesseret i rapporten, kan du finde et udføreligt overblik her.


To pipelines til dansk tekst: DaCy og DaAnonymization
Derudover er der kommet nye værktøjer til at arbejde med dansk fritekst. DaCy indeholder tre sprogprocesserings pipelines, som er trænet og implementeret i SpaCy. De tre pipelines har opnået den bedste performance på en række danske sprogteknologiske opgaver, heriblandt entitetsgenkendelse grammatisk tagging, samt syntaktisk analyse. De tre pipelines adskiller sig fra hinanden på hastiged og præcision.  

DaAnonymization er en anonymiserings pipeline, der giver nem adgang til anonymisering af dansk tekst ved brug af DaCy's funktioner. Grundlæggende kan værktøjet bl.a. fjerne telefonnumre, CPR-numre og mailadresser, men er udviklet med plads til brugertilpasning, hvorfor man kan udvide med egne regler og funk-tioner specifikt for sit eget projekt. DaAnonymization understøtter hertil også pseudonymisering. Alt-i-alt godt nyt til dem der som arbejder med tekstmateria-le, der ofte indeholder personlige oplysninger på individer.