Flere Nyheder

Nyt datasæt til evaluering af sprogmodellers evne til at forstå danske talemåder og faste udtryk
20. november 2024

Hvad forstår sprogmodeller sig på agurkesalat? Tror de, der er mere mellem himmel og jord? Ved de hvad vej, vinden blæser? Og har de ondt af det, de ikke ved? Som...
Læs mere

Hvordan kan store generative sprogmodeller trænes så de forstår både det danske sprog, men også den danske kultur?
13. november 2024

Forskningsgruppen NLPnorth fra IT-Universitet i København er sammen med Aalborg Universitet ved Pioneer Centre for AI i gang med at sætte fokus på forskellige aspekter...
Læs mere

Tilmeldingen til Sprogteknologisk Konference 2024 er åben!
17. september 2024

Kom og vær med, når Sprogteknologisk Konference bliver en afholdt d. 28. november på Københavns Universitet Amager (KUA). Det er i år fjerde gang i...
Læs mere

Bredt samarbejde skal hjælpe danske virksomheder og forskere med fri adgang til nogle af verdens største computere
12. september 2024

Digitaliseringsstyrelsen, Uddannelses- og Forskningsstyrelsen og universitetssamarbejdet DeiC opfordrer danske virksomheder, forskere og myndigheder til at bruge den massive...
Læs mere

Mød sprogteknologi.dk på festivallen Vilde Teknologier
14. august 2024

Den 30. og 31. august 2024 kan du møde sprogteknologi.dk til festivallen Vilde Teknologier på Dokk1 i Aarhus! Sammen med Alexandra Instituttet parkerer vi et mobilt...
Læs mere

Opsamling på workshop om store danske sprogressourcer

14. december 2023

Dekorativt indhold

Digitaliseringsstyrelsen har afholdt workshop om store danske sprogressourcer

Tirsdag d. 12. september 2023 afholdt Digitaliseringsstyrelsen en workshop med omkring 50 deltagende fra 30 forskellige organisationer. Formålet var at diskutere relevansen af en række eksisterende, men utilgængelige, danske sprogdata fra Det Kongelige Bibliotek, Rigsarkivet, Lex.dk og Aarhus Stadsarkiv.

De fire oplægsholdere præsenterede hver især de data, de sidder inde med samt det tekniske format, som disse data som udgangspunkt eksisterer i. Formålet med workshoppen var sammen med deltagerne at diskutere disse datas værdi for sprogteknologisk udvikling samt afklare i hvilket omfang, der ville være behov for en konkret efterbehandling af dataene. Deltagerne blev inddelt i grupper, hvor hver gruppe skulle forholde sig til ét af de fire oplæg og diskutere ud fra to hovedspørgsmål:

Hvad er de pågældende datas værdi for sprogteknologiske formål?
Hvad skal der teknisk til for, at disse ”rå” data kan blive til anvendelige sprogressourcer?

Workshoppen blev afholdt som et led i et større arbejde, hvor Digitaliseringsstyrelsen søger at afdække, hvilke data det giver mening at prioritere i en indsats for at tilvejebringe flere danske højkvalitetssprogdata.

Dagens konklusioner

Værdien af data er kontekstafhængig. Derfor skal der sættes fokus på et bredt datagrundlag, hvor indsatsen i første omfang skal prioritere at sætte data fri, da efterbehandling til sammenligning er mindre vigtig, så længe der er en klar struktur i datasættet.

Der blev sat fokus på betydningen af at dele data, ikke mindst mht. europæisk og nordisk samarbejde. F.eks. vil det gavne, at den svenske model, GPT-SW3, også får bedre adgang til danske og norske data, så denne på sigt vil kunne bruges i danske sammenhænge.

Kontekst handler også om tid, og det blev f.eks. påpeget, at virksomheder ofte har en kortere tidshorisont end f.eks. forskere, hvorfor de gode data bliver værdiløse for dem, når arbejdet med at få fat i dem overstiger den tidshorisont, de arbejder ud fra.

Det står generelt klart efter workshoppen, at data fra alle fire organisationer har væsentlig værdi for sprogteknologi, og at behovet for efterbehandling i de fleste tilfælde er minimalt. Men det står også klart, at der er udfordringer med adgangen til de fleste af disse data i forbindelse med f.eks. ophavsret, databeskyttelsesordningen og arkivloven, hvorfor der er behov for mere fokus på at undersøge, om disse udfordringer kan løses.

Digitaliseringsstyrelsen vil kigge ind i fire handlingsforløb

På baggrund af workshoppen, har Digitaliseringsstyrelsen besluttet at kigge ind i fire handlingsforløb, som kan hjælpe med at adressere nogle af de udfordringer og pointer, som workshoppen har rejst. Digitaliseringsstyrelsen vil:

Indgå i en dialog med de fire oplægsholdere for at afdække muligheden for at få (dele af) deres sprogdata tilgængeliggjort og udstillet på sprogteknologi.dk.
Udtænke et format for et ”netværk for danske sprogressourcer”, hvor aktører kan udveksle erfaringer med og koordinere udviklingen af nye danske sprogressourcer.
Undersøge mulige løsninger på de mest gængse udfordringer med ophavsret og personoplysninger i forhold til at tilgængeliggøre værdifulde data, som på nuværende tidspunkt ikke er udstillet frit.
Gøre det lettere at anvende de mange sprogdata, som henvises til på sprogteknologi.dk. I den forbindelse vil Digitaliseringsstyrelsen undersøge, om der kan laves én samlet sprogressource på baggrund af de data, der henvises til på sprogteknologi.dk.

Slides med spørgsmål og opsummering

På præsentationen fra workshoppen fremgår pointer i noteform, som grupperne præsenterede på workshoppen. Der opsummeres først tværgående pointer fra diskussionerne af workshoppens to hovedspørgsmål, og dernæst præsenteres de konkrete handlingspunkter, som Digitaliseringsstyrelsen på baggrund af workshoppen har sat sig for. Til sidst præsenteres gruppernes diskussionsnoter for hvert af de respektive oplæg.