Det gik du glip af til workshop om evaluering og benchmarking af sprogmodeller på dansk

25. november 2024

Dekorativt indhold


Evaluering og benchmarking af sprogmodeller er en forudsætning for dels at finde de bedst egnede løsninger til en given opgave, og dels for at målrette det videre arbejde med at udvikle konkurrencedygtige sprogmodeller.
 

Derfor havde Digitaliseringsstyrelsen inviteret 40 deltagere fra forskellige virksomheder, myndigheder og forskningsinstitutioner til en workshop om arbejdet med evaluering og benchmarking af sprogmodeller på dansk fredag d. 20. september.

Dagen bød på en masse spændende oplæg og drøftelser, og deltagerne udarbejdede en ”backlog” med opgaver, som forskellige danske aktører bør kaste sig over for at hjælpe arbejdet med sprogmodeller bedre på vej!

Med en blanding af oplæg og diskussionsopgaver havde dagen tre hovedformål – nemlig 1) at gøre status på igangværende indsatser med evaluering og benchmarking af sprogmodeller på dansk, 2) at afdække behovet for yderligere indsatser på området, og 3) at udarbejde et udkast til en backlog af opgaver, som bør løftes på området.

I løbet af dagen var der oplæg om hhv. ScandEval, Scandinavian Embedding Benchmark, Danish Semantic Reasoning Benchmark, Danoliterate, norske projekter med evaluering af sprogmodeller og til sidst om udarbejdelsen af et evalueringsdatasæt for 1000 danske talemåder og faste udtryk.

Der blev fremført mange vigtige pointer i både oplæg og under drøftelserne, bl.a. behovet for flere domænespecifikke og oprindeligt danske evalueringsdatasæt samt behovet for en ”menneskelig baseline”, dvs. et sammenligningsgrundlag baseret på faktiske menneskers præferencer for sprogmodellers svar, som kan bruges til at tilpasse automatisk evaluering af sprogmodeller.


Læs opsamlingen fra workshoppen

På bagkant af workshoppen har Digitaliseringsstyrelsen skrevet en opsamling, som har været til kommentering blandt deltagerne. Opsamlingen indeholder bl.a. den backlog med opgaver, som blev udarbejdet på workshoppen, samt et afsnit om fremtidsperspektiver for arbejdet med at evaluere og benchmarke sprogmodeller på dansk. 

Opsamlingen indeholder desuden et metodeafsnit, hvor man kan læse mere om designet af workshoppen, samt links til de oplæg, der blev præsenteret på workshoppen.

Du kan læse opsamlingen her.

Tak til alle der tog sig tid til at deltage i workshoppen og delte viden og perspektiver.