Det har sprogteknologi.dk lavet i 2024!
18. december 2024
2024 er næsten ovre, og det markerer det sjette år, hvor Digitaliseringsstyrelsen har arbejdet med det nationale initiativ sprogteknologi.dk. Vi vil gerne bruge anledningen til at fortælle lidt om, hvad vi har arbejdet med i løbet af det forgangne år, og også lidt om, hvad vi ser frem til i det kommende år!
I 2024 har vi rundet intet mindre end 200 metadatabeskrivelser for danske sprogressourcer på vores hjemmeside sprogteknologi.dk. Og fire af de nytilføjede ressourcer har Digitaliseringsstyrelsen endda selv været med til at bringe til verden. Sammen med Det Danske Sprog- og Litteraturselskab og Center for Sprogteknologi har vi nemlig fået udviklet COR.SEM-modulet til Det Centrale Ordregister, som beriger indekset med formaliserede betydningsoplysninger for de fleste lemmaer. Det Danske Sprog- og Litteraturselskab har derudover på foranledning af Digitaliseringsstyrelsen udviklet et evalueringsdatasæt for 1000 danske talemåder og faste udtryk, som kan bruges til at benchmarke sprogmodeller ud fra deres præstationer på dansk. Med hjælp fra Syddansk Universitet har vi fået udarbejdet et sundhedsfagligt tekstkorpus med udgangspunkt i en dokumentsamling fra Region Hovedstaden. Sidst, men ikke mindst, har vi i regi af CoRal-projektet fået udgivet det første danske højkvalitets taledatasæt, som allerede er blevet brugt til at træne sprogmodeller på dansk!
På den internationale front har vi arbejdet på at få Danmark meldt ind i den Europæiske Alliance for Sprogteknologi (ALT-EDIC), hvilket blev en realitet i slutningen af maj – og Digitaliseringsstyrelsen repræsenterer nu Danmark i ALT-EDICs Assembly of Members samt diverse arbejdsgrupper, som understøtter alliancens arbejde. Derudover har vi haft fokus på nordisk samarbejde om sprogteknologi, hvor Digitaliseringsstyrelsen sammen med Det Kgl. Bibliotek har afholdt en workshop med deltagelse fra det svenske Kungliga bibliotektet, det norske Nasjonalbiblioteket, DeiC, Rigsarkivet samt Center for Humanities Computing ved Aarhus Universitet.
Men vi har også haft mange samarbejder inden for Danmarks grænser. Vi har blandt andet påbegyndt et samarbejde med Open Data DK og fem kommuner med henblik på at tilgængeliggøre byrådsdata til brug for udvikling af kunstig intelligens. Sammen med Future Classroom Lab ved CFU har vi også afholdt et hackathon for at udforske mulighederne i SkoleGPT. Derudover var vi i august med til at skabe rammerne for festivalen Vilde Teknologier, som blev arrangeret af Aarhus Kommune.
På hjemmefronten har vi afholdt Sprogteknologisk Konference 2024 – som altid i samarbejde med Center for Sprogteknologi ved Københavns Universitet, og i år havde vi hele 300 deltagere sammenlignet med 180 sidste år! I efteråret afholdte vi desuden en workshop om evaluering og benchmarking af sprogmodeller på dansk med oplæg fra både Alexandra Instituttet, Center for Humanities Computing, Center for Sprogteknologi, Det Danske Sprog- og Litteraturselskab, DTU og Universitetet i Oslo.
Vi ser frem til 2025, hvor vi allerede nu har planlagt mange vigtige indsatser, heriblandt en dansk landeworkshop for det fælleseuropæiske Language Data Space, et samarbejde med Rigsarkivet, Det Kgl. Bibliotek og Folketinget om at tilgængeliggøre danske sprogdata i regi af Regeringens nye AI-vision, tilvejebringelse af en række vigtige juridiske standardafklaringer for det sprogteknologiske område, planlægning af Sprogteknologisk Konference 2025, og så selvfølgelig endnu flere danske højkvalitetssprogressourcer!