Ressourcer - sprogteknologi.dk

The Danish Parliament Corpus 2009 - 2017, v2, w. subject annotation

The Danish Parliament Corpus 2009 - 2017, v2, w. subject area annotation indeholder udskrifter af taler holdt i Folketinget, session 20091 til 20161 (6/10 2009 - 7/9 2017) og er...

TXT

Ordia

Ordia er en frontend/webapplikation, som udstiller Wikidatas leksikografiske data på en let, overskuelig og tilgængelig måde. Du kan bruge Ordia til at finde oplysninger om en...

HTML

Danish Dependency Treebank (DaNE)

DaNE adds NER annotations to the The Danish Universal Dependencies Treebank (UD-DDT). The Danish UD treebank (Johannsen et al., 2015, UD-DDT) is a conversion of the Danish...

coNLL-U

XLS-R-300m-danish

XLS-R-300m-danish er en general dansk talemodel der bygger på wav2vec2.0 arkitekturen og er en fortsat prætræning af XLS-R checkpointet. Modellen er trænet på 141.000 timers...

BIN

XLS-R-300m-danish-nst-cv9

'Finetuned version af XLS-R-300m-danish til talegenkendelse på dansk. Modellen er finetuned på træningssættet af NST ASR og Common Voice 9, og har en word error rate på 5-10% på...

BIN

Bornholmsk Ordbog

Bornholmsk Ordbog er en digital samling af en række bornholmske glossarer og ressourcer, herunder bornholmsksprogede tekster. Ordbogen er en metaordbog, der forener en række...

HTML

Dictionary for the CST Lemmatizer

Binary wordlists for the CST lemmatizer as suplement to the rules of the lemmatizer. Works with both tagged and untagged input. Use: cstlemma -d NAME-OF-WORDLIST

HTML

CopCo: The Copenhagen Corpus of Eye-Tracking Recordings from Natural Reading

CopCo er et eye-tracking korpus, som er skræddersyet til både psykolingvistik og natural language processing. Målet er at undersøge læseadfærd af danske tekster hos forskellige...

CSV

Dansk-Ukrainsk-Engelsk Ordbog

Ordbogen ordbog-slovnyk.edition-4 er lavet for at hjælpe ukrainere og danskere i deres kommunikation med hinanden, og den indeholder mere end 3000 hyppige ord samt deres udtale....

PDF

NST Danish Dictation (22 kHz)

Samling af lydoptagelser i 22 kHz 1 kanal (mono). Stammer fra NST (Nordisk Språkteknologi) som gik konkurs i 2003. Er holdt ajour i den norske sprogbank i Nationalbiblioteket....

TXT
PCM
PDF

NST Danish ASR Database (16 kHz)

Samling af lydoptagelser i 16 kHz. Stammer fra NST (Nordisk Språkteknologi) som gik konkurs i 2003. Er holdt ajour i den norske sprogbank i Nationalbiblioteket. Ligger bl.a. til...

PCM
PDF

NST Danish Speech Synthesis (44kHz)

Samling af lydoptagelser i 44 kHz. Stammer fra NST (Nordisk Språkteknologi) som gik konkurs i 2003. Er holdt ajour i den norske sprogbank i Nationalbiblioteket. Ligger bl.a. til...

PCM
TXT

ScandiQA

ScandiQA er et datasæt bestående af spørgsmål og svar på dansk, norsk og svensk. Alle samples kommer fra Natural Questions (NQ) datasættet, som er et stort datasæt med spørgsmål...

JSON

Danish WIT

Datasættet er den danske del af WIT-Base datasættet, som blev udgivet af WikiMedia i 2021. WIT-Base er en modificeret udgave af WIT (Wikipedia Image Text), hvor billeder med...

parquet

WikiMatrix

135 mio parallelsætninger (1620 sprogpar - 85 sprog) fra Wikipedia. License: The mined data is distributed under the Creative Commons Attribution-ShareAlike license. Please cite...

TSV

DA-EN Danish Ministry of Higher Education and Science

Parallel texts Danish-English from the Danish Ministry of Higher Education and Science, size: 120,000 words, topic: innovation, science This dataset has been created within the...

PDF

DA-EN Danish Ministry of Higher Education and Science 3 (Processed)

Parallel texts Danish-English from the Danish Ministry of Higher Education and Science, size 110,000 words, topic: research policy (Processed) This dataset has been created...

TMX

DK INSPIRE Addresses

It is generally assumed that addresses form up to 80% of the digital solutions used by a modern society. Access to accurate and up-to-date information on Denmark's addresses is...

WMS
XML

SemDaX

The SemDax Corpus is a Danish human-annotated corpus relying on the combined wordnet and dictionary resources: DanNet and Den Danske Ordbog, and available through a CLARIN...

XML

NST N-gram - Danish News Text

Dette korpus indeholder n-grammer på dansk afledt af et korpus på 290 millioner ord med danske nyhedsarktikler fra aviserne Berlingske Tidende, Ekstrabladet og Politiken....

TXT

200 ressourcer fundet