Skip to main content

6 datasæt fundet

Filtrér resultater
  • da-wikipedia-queries

    Formålet med dette datasæt er at træne embedding-modeller til retrieval på dansk. Dette datasæt blev oprettet ved at vise ca. 30.000 Wikipedia-afsnit til LLM’er og bede dem om...
  • Syntetisk dialog opsummering raw

    Thanks to NVIDIA and Arrow Denmark for sponsoring the compute needed to generate this dataset This dataset conists of 1,000,000 synthetic dialogs in Danish and a summary of each...
  • RøBÆRTa

    RøBÆRTa er en dansk præ-trænet Roberta sprogmodel. RøBÆRTa er blevet trænet på det danske mC4 datasæt i forbindelse med flax community week. Modellen er trænet til at gætte et...
  • The Leipzig Collection - Dansk sentiment

    Datasættet består af dansk data fra Leipzig Samlingen (The Leipzig Collection), som er blevet annoteret til sentiment analyse af Finn Årup Nielsen. Datasættets struktur: En...
  • Europarl

    Europarl er dansk data fra Europa Parlamentet som er blevet annoteret til sentiment analyse af Alexandra Instituttet. Datasættets struktur: En række består af de følgende...
  • Angry Tweets Binary

    Dette datasæt består af anonymiserede danske Twitter data, som er blev annoteret for sentimentanalysee gennem crowd-sourcing. Alt anerkendelse skal gives til forfatterne til...