Ressourcer - sprogteknologi.dk

Evalueringsdatasæt for 1000 danske talemåder og faste udtryk

Det Danske Sprog- og Litteraturselskab har udviklet et datasæt som indeholder samlet 1000 danske talemåder og faste udtryk med overførte betydninger (herefter omtalt som...

TXT
CSV

HyggeSwag

“HyggeSwag” er et evalueringsdatasæt til at foretager natursprogsvurderinger: At lade sprogsystemer vurdere hvilken ud af flere tekstfortsættelser er i overenstemmelse med almen...

Parquet

#twitterhjerne

"#twitterhjerne” er et spørgsmåls/svar-datasæt, der indeholder dansksprogede spørgsmålstweets, hver med en tilhørende række svar på spørgsmålet.

Parquet

PIN Analytical

PIN Analytical er en klassifikationsmodel, som registrerer subjektivitet eller objektivitet i en given dansk tekst. Modellen er trænet og testet på Alexandra Instituttets...

BIN

Scandi Reddit Filtered

ScandiReddit er et filtrereet korpus bestående af kommentarer fra Reddit.com. Alle Reddit kommentarer fra december 2005 til oktober 2022 blev downloadet via PushShift, hvorefter...

Parquet

Angry Tweets Binary

Dette datasæt består af anonymiserede danske Twitter data, som er blev annoteret for sentimentanalysee gennem crowd-sourcing. Alt anerkendelse skal gives til forfatterne til...

Parquet

The Leipzig Collection - Dansk sentiment

Datasættet består af dansk data fra Leipzig Samlingen (The Leipzig Collection), som er blevet annoteret til sentiment analyse af Finn Årup Nielsen. Datasættets struktur: En...

CSV

Navne i hele befolkningen (top-20)

Igennem flere år har efternavnet Jensen ligget på 1. pladsen på top-20-listen over anvendte efternavne i hele befolkningen. For kvinder er det mest anvendte fornavn Anne, og for...

HTML

Fornavne og efternavne i befolkningen i Danmark

Digitaliseringsstyrelsen udgiver et datasæt med Danmarks Statistiks lister over for- og efternavne for hele befolkningen i Danmark per januar 2020. Datasættet består af tre...

TXT

Klimarådets udgivelser

Klimarådet er et uafhængigt ekspertorgan, der rådgiver regeringen om, hvordan omstillingen til et klimaneutralt samfund kan ske, så vi i fremtiden kan leve i et Danmark med...

PDF

Klimarådets virkemiddelkatalog

Klimarådet er et uafhængigt ekspertorgan, der rådgiver regeringen om, hvordan omstillingen til et klimaneutralt samfund kan ske, så vi i fremtiden kan leve i et Danmark med...

HTML

Alvenir ASR evalueringsdata

Dansk taledata fra Alvenir, som særligt kan bruges til at evaluere ASR modeller på dansk. Datasættet består af ca. 5 timers tale indtalt af 50 talere mellem 20 - 60 år....

WAV

The Danish Parliament Corpus 2009 - 2017, v2, w. subject annotation

The Danish Parliament Corpus 2009 - 2017, v2, w. subject area annotation indeholder udskrifter af taler holdt i Folketinget, session 20091 til 20161 (6/10 2009 - 7/9 2017) og er...

TXT

CopCo: The Copenhagen Corpus of Eye-Tracking Recordings from Natural Reading

CopCo er et eye-tracking korpus, som er skræddersyet til både psykolingvistik og natural language processing. Målet er at undersøge læseadfærd af danske tekster hos forskellige...

CSV

ScandiQA

ScandiQA er et datasæt bestående af spørgsmål og svar på dansk, norsk og svensk. Alle samples kommer fra Natural Questions (NQ) datasættet, som er et stort datasæt med spørgsmål...

JSON

Medical spelling dictionary (processed)

Medical spelling dictionary with terms in Danish, English and Latin This dataset has been created within the framework of the European Language Resource Coordination (ELRC)...

TBX

Danish BERT

BERT (Bidirectional Encoder Representations from Transformers) is a deep neural network model used in Natural Language Processing. The network learns the grammar and semantics...

CKPT

The DK-CLARIN JRC-Acquis Parallel Corpus (da, en)

The DK-CLARIN JRC-Acquis Parallel Corpus (da, en) is a part of the JRC-Acquis mulilingual parallel corpus, containing documents from The Acquis Communautaire (AC) which is the...

XML

Danish Similarity Data Set

The Danish similarity dataset is a gold standard resource for evaluation of Danish word embedding models. The dataset consists of 99 word pairs rated by 38 human judges...

CSV

Dansk ELECTRA

ELECTRA model prætrænet på dansk, på 17,5 GB data. Du kan læse mere om ELECTRA træningsmetoden i denne forskningsartikel: ELECTRA: Pre-training Text Encoders as Discriminators...

BIN

30 ressourcer fundet