Ressourcer - sprogteknologi.dk

XLS-R-300m-danish

XLS-R-300m-danish er en general dansk talemodel der bygger på wav2vec2.0 arkitekturen og er en fortsat prætræning af XLS-R checkpointet. Modellen er trænet på 141.000 timers...

BIN

The Norwegian Colossal Corpus

"The Norwegian Colossal Corpus (NCC) is a collection of multiple smaller Norwegian corpuses suitable for training large language models. We have done extensive cleaning on the...

JSON

XLS-R-300m-danish-nst-cv9

'Finetuned version af XLS-R-300m-danish til talegenkendelse på dansk. Modellen er finetuned på træningssættet af NST ASR og Common Voice 9, og har en word error rate på 5-10% på...

BIN

Bornholmsk Ordbog

Bornholmsk Ordbog er en digital samling af en række bornholmske glossarer og ressourcer, herunder bornholmsksprogede tekster. Ordbogen er en metaordbog, der forener en række...

HTML

DGT-Translation Memory

DGT-TM er en oversættelseshukommelse (sætninger og deres manuelt fremstillede oversættelse) på 24 sprog. Den indeholder segmenter fra den gældende fællesskabsret – EU-...

TMX

Dictionary for the CST Lemmatizer

Binary wordlists for the CST lemmatizer as suplement to the rules of the lemmatizer. Works with both tagged and untagged input. Use: cstlemma -d NAME-OF-WORDLIST

HTML

CopCo: The Copenhagen Corpus of Eye-Tracking Recordings from Natural Reading

CopCo er et eye-tracking korpus, som er skræddersyet til både psykolingvistik og natural language processing. Målet er at undersøge læseadfærd af danske tekster hos forskellige...

CSV

Dansk-Ukrainsk-Engelsk Ordbog

Ordbogen ordbog-slovnyk.edition-4 er lavet for at hjælpe ukrainere og danskere i deres kommunikation med hinanden, og den indeholder mere end 3000 hyppige ord samt deres udtale....

PDF

NST Danish Dictation (22 kHz)

Samling af lydoptagelser i 22 kHz 1 kanal (mono). Stammer fra NST (Nordisk Språkteknologi) som gik konkurs i 2003. Er holdt ajour i den norske sprogbank i Nationalbiblioteket....

TXT
PCM
PDF

NST Danish ASR Database (16 kHz)

Samling af lydoptagelser i 16 kHz. Stammer fra NST (Nordisk Språkteknologi) som gik konkurs i 2003. Er holdt ajour i den norske sprogbank i Nationalbiblioteket. Ligger bl.a. til...

PCM
PDF

NST Danish Speech Synthesis (44kHz)

Samling af lydoptagelser i 44 kHz. Stammer fra NST (Nordisk Språkteknologi) som gik konkurs i 2003. Er holdt ajour i den norske sprogbank i Nationalbiblioteket. Ligger bl.a. til...

PCM
TXT

ScandiQA

ScandiQA er et datasæt bestående af spørgsmål og svar på dansk, norsk og svensk. Alle samples kommer fra Natural Questions (NQ) datasættet, som er et stort datasæt med spørgsmål...

JSON

Danish WIT

Datasættet er den danske del af WIT-Base datasættet, som blev udgivet af WikiMedia i 2021. WIT-Base er en modificeret udgave af WIT (Wikipedia Image Text), hvor billeder med...

parquet

Autoriserede stednavne i Danmark

28.000 stednavne i Danmark der har en stavemåde som er autoriseret af Kulturministeriet som gældende retskrivning. Navnene kan fremsøges via applikationen stednavne.info hvis...

XLSX

WikiMatrix

135 mio parallelsætninger (1620 sprogpar - 85 sprog) fra Wikipedia. License: The mined data is distributed under the Creative Commons Attribution-ShareAlike license. Please cite...

TSV

DA-EN Danish Ministry of Higher Education and Science

Parallel texts Danish-English from the Danish Ministry of Higher Education and Science, size: 120,000 words, topic: innovation, science This dataset has been created within the...

PDF

DA-EN Danish Ministry of Higher Education and Science 3 (Processed)

Parallel texts Danish-English from the Danish Ministry of Higher Education and Science, size 110,000 words, topic: research policy (Processed) This dataset has been created...

TMX

DK INSPIRE Addresses

It is generally assumed that addresses form up to 80% of the digital solutions used by a modern society. Access to accurate and up-to-date information on Denmark's addresses is...

WMS
XML

DK INSPIRE Named place

Danish Named Place data contain names on everything from the tree “Konge egen” and the city center to the peninsula Jutland. There are 140,000 Danish Named Places in total, all...

GML
WMS
XML

SemDaX

The SemDax Corpus is a Danish human-annotated corpus relying on the combined wordnet and dictionary resources: DanNet and Den Danske Ordbog, and available through a CLARIN...

XML

189 ressourcer fundet