-
da-wikipedia-queries
Formålet med dette datasæt er at træne embedding-modeller til retrieval på dansk. Dette datasæt blev oprettet ved at vise ca. 30.000 Wikipedia-afsnit til LLM’er og bede dem om... -
Syntetisk dialog opsummering raw
Thanks to NVIDIA and Arrow Denmark for sponsoring the compute needed to generate this dataset This dataset conists of 1,000,000 synthetic dialogs in Danish and a summary of each... -
RøBÆRTa
RøBÆRTa er en dansk præ-trænet Roberta sprogmodel. RøBÆRTa er blevet trænet på det danske mC4 datasæt i forbindelse med flax community week. Modellen er trænet til at gætte et... -
The Leipzig Collection - Dansk sentiment
Datasættet består af dansk data fra Leipzig Samlingen (The Leipzig Collection), som er blevet annoteret til sentiment analyse af Finn Årup Nielsen. Datasættets struktur: En... -
Europarl
Europarl er dansk data fra Europa Parlamentet som er blevet annoteret til sentiment analyse af Alexandra Instituttet. Datasættets struktur: En række består af de følgende... -
Angry Tweets Binary
Dette datasæt består af anonymiserede danske Twitter data, som er blev annoteret for sentimentanalysee gennem crowd-sourcing. Alt anerkendelse skal gives til forfatterne til...