Flere Nyheder

Ny rapport evaluerer byg-selv-løsninger mod generelle modeller som GPT-4
17. december 2024

En ny rapport fra Analyse & Tal og TrygFonden kigger nærmere på, hvorvidt det kan betale sig for organisationer at bygge egne specialiserede sprogmodeller fremfor at bruge...
Læs mere

Sprogteknologisk Konference 2024 er afholdt!
6. december 2024

Sprogteknologisk konference 2024 blev afholdt for fjerde år i træk. Igen i år var konferencen et samlingspunkt for aktører og personer med interesse for dansk...
Læs mere

Det gik du glip af til workshop om evaluering og benchmarking af sprogmodeller på dansk
25. november 2024

Evaluering og benchmarking af sprogmodeller er en forudsætning for dels at finde de bedst egnede løsninger til en given opgave, og dels for at målrette det videre...
Læs mere

Nyt datasæt til evaluering af sprogmodellers evne til at forstå danske talemåder og faste udtryk
20. november 2024

Hvad forstår sprogmodeller sig på agurkesalat? Tror de, der er mere mellem himmel og jord? Ved de hvad vej, vinden blæser? Og har de ondt af det, de ikke ved? Som...
Læs mere

Hvordan kan store generative sprogmodeller trænes så de forstår både det danske sprog, men også den danske kultur?
13. november 2024

Forskningsgruppen NLPnorth fra IT-Universitet i København er sammen med Aalborg Universitet ved Pioneer Centre for AI i gang med at sætte fokus på forskellige aspekter...
Læs mere

Det har sprogteknologi.dk lavet i 2024!

18. december 2024

Dekorativt indhold

2024 er næsten ovre, og det markerer det sjette år, hvor Digitaliseringsstyrelsen har arbejdet med det nationale initiativ sprogteknologi.dk. Vi vil gerne bruge anledningen til at fortælle lidt om, hvad vi har arbejdet med i løbet af det forgangne år, og også lidt om, hvad vi ser frem til i det kommende år!

I 2024 har vi rundet intet mindre end 200 metadatabeskrivelser for danske sprogressourcer på vores hjemmeside sprogteknologi.dk. Og fire af de nytilføjede ressourcer har Digitaliseringsstyrelsen endda selv været med til at bringe til verden. Sammen med Det Danske Sprog- og Litteraturselskab og Center for Sprogteknologi har vi nemlig fået udviklet COR.SEM-modulet til Det Centrale Ordregister, som beriger indekset med formaliserede betydningsoplysninger for de fleste lemmaer. Det Danske Sprog- og Litteraturselskab har derudover på foranledning af Digitaliseringsstyrelsen udviklet et evalueringsdatasæt for 1000 danske talemåder og faste udtryk, som kan bruges til at benchmarke sprogmodeller ud fra deres præstationer på dansk. Med hjælp fra Syddansk Universitet har vi fået udarbejdet et sundhedsfagligt tekstkorpus med udgangspunkt i en dokumentsamling fra Region Hovedstaden. Sidst, men ikke mindst, har vi i regi af CoRal-projektet fået udgivet det første danske højkvalitets taledatasæt, som allerede er blevet brugt til at træne sprogmodeller på dansk!

På den internationale front har vi arbejdet på at få Danmark meldt ind i den Europæiske Alliance for Sprogteknologi (ALT-EDIC), hvilket blev en realitet i slutningen af maj – og Digitaliseringsstyrelsen repræsenterer nu Danmark i ALT-EDICs Assembly of Members samt diverse arbejdsgrupper, som understøtter alliancens arbejde. Derudover har vi haft fokus på nordisk samarbejde om sprogteknologi, hvor Digitaliseringsstyrelsen sammen med Det Kgl. Bibliotek har afholdt en workshop med deltagelse fra det svenske Kungliga bibliotektet, det norske Nasjonalbiblioteket, DeiC, Rigsarkivet samt Center for Humanities Computing ved Aarhus Universitet.

Men vi har også haft mange samarbejder inden for Danmarks grænser. Vi har blandt andet påbegyndt et samarbejde med Open Data DK og fem kommuner med henblik på at tilgængeliggøre byrådsdata til brug for udvikling af kunstig intelligens. Sammen med Future Classroom Lab ved CFU har vi også afholdt et hackathon for at udforske mulighederne i SkoleGPT. Derudover var vi i august med til at skabe rammerne for festivalen Vilde Teknologier, som blev arrangeret af Aarhus Kommune.

På hjemmefronten har vi afholdt Sprogteknologisk Konference 2024 – som altid i samarbejde med Center for Sprogteknologi ved Københavns Universitet, og i år havde vi hele 300 deltagere sammenlignet med 180 sidste år! I efteråret afholdte vi desuden en workshop om evaluering og benchmarking af sprogmodeller på dansk med oplæg fra både Alexandra Instituttet, Center for Humanities Computing, Center for Sprogteknologi, Det Danske Sprog- og Litteraturselskab, DTU og Universitetet i Oslo.

Vi ser frem til 2025, hvor vi allerede nu har planlagt mange vigtige indsatser, heriblandt en dansk landeworkshop for det fælleseuropæiske Language Data Space, et samarbejde med Rigsarkivet, Det Kgl. Bibliotek og Folketinget om at tilgængeliggøre danske sprogdata i regi af Regeringens nye AI-vision, tilvejebringelse af en række vigtige juridiske standardafklaringer for det sprogteknologiske område, planlægning af Sprogteknologisk Konference 2025, og så selvfølgelig endnu flere danske højkvalitetssprogressourcer!