200 ressourcer fundet

Filtrér resultater
  • The Danish Parliament Corpus 2009 - 2017, v2, w. subject area annotation indeholder udskrifter af taler holdt i Folketinget, session 20091 til 20161 (6/10 2009 - 7/9 2017) og er...
    • TXT
  • Ordia er en frontend/webapplikation, som udstiller Wikidatas leksikografiske data på en let, overskuelig og tilgængelig måde. Du kan bruge Ordia til at finde oplysninger om en...
    • HTML
  • DaNE adds NER annotations to the The Danish Universal Dependencies Treebank (UD-DDT). The Danish UD treebank (Johannsen et al., 2015, UD-DDT) is a conversion of the Danish...
    • coNLL-U
  • XLS-R-300m-danish er en general dansk talemodel der bygger på wav2vec2.0 arkitekturen og er en fortsat prætræning af XLS-R checkpointet. Modellen er trænet på 141.000 timers...
    • BIN
  • 'Finetuned version af XLS-R-300m-danish til talegenkendelse på dansk. Modellen er finetuned på træningssættet af NST ASR og Common Voice 9, og har en word error rate på 5-10% på...
    • BIN
  • Bornholmsk Ordbog er en digital samling af en række bornholmske glossarer og ressourcer, herunder bornholmsksprogede tekster. Ordbogen er en metaordbog, der forener en række...
    • HTML
  • Binary wordlists for the CST lemmatizer as suplement to the rules of the lemmatizer. Works with both tagged and untagged input. Use: cstlemma -d NAME-OF-WORDLIST
    • HTML
  • CopCo er et eye-tracking korpus, som er skræddersyet til både psykolingvistik og natural language processing. Målet er at undersøge læseadfærd af danske tekster hos forskellige...
    • CSV
  • Ordbogen ordbog-slovnyk.edition-4 er lavet for at hjælpe ukrainere og danskere i deres kommunikation med hinanden, og den indeholder mere end 3000 hyppige ord samt deres udtale....
    • PDF
  • Samling af lydoptagelser i 22 kHz 1 kanal (mono). Stammer fra NST (Nordisk Språkteknologi) som gik konkurs i 2003. Er holdt ajour i den norske sprogbank i Nationalbiblioteket....
    • TXT
    • PCM
    • PDF
  • Samling af lydoptagelser i 16 kHz. Stammer fra NST (Nordisk Språkteknologi) som gik konkurs i 2003. Er holdt ajour i den norske sprogbank i Nationalbiblioteket. Ligger bl.a. til...
    • PCM
    • PDF
  • Samling af lydoptagelser i 44 kHz. Stammer fra NST (Nordisk Språkteknologi) som gik konkurs i 2003. Er holdt ajour i den norske sprogbank i Nationalbiblioteket. Ligger bl.a. til...
    • PCM
    • TXT
  • ScandiQA er et datasæt bestående af spørgsmål og svar på dansk, norsk og svensk. Alle samples kommer fra Natural Questions (NQ) datasættet, som er et stort datasæt med spørgsmål...
    • JSON
  • Datasættet er den danske del af WIT-Base datasættet, som blev udgivet af WikiMedia i 2021. WIT-Base er en modificeret udgave af WIT (Wikipedia Image Text), hvor billeder med...
    • parquet
  • 135 mio parallelsætninger (1620 sprogpar - 85 sprog) fra Wikipedia. License: The mined data is distributed under the Creative Commons Attribution-ShareAlike license. Please cite...
    • TSV
  • Parallel texts Danish-English from the Danish Ministry of Higher Education and Science, size: 120,000 words, topic: innovation, science This dataset has been created within the...
    • PDF
  • Parallel texts Danish-English from the Danish Ministry of Higher Education and Science, size 110,000 words, topic: research policy (Processed) This dataset has been created...
    • TMX
  • It is generally assumed that addresses form up to 80% of the digital solutions used by a modern society. Access to accurate and up-to-date information on Denmark's addresses is...
    • WMS
    • XML
  • The SemDax Corpus is a Danish human-annotated corpus relying on the combined wordnet and dictionary resources: DanNet and Den Danske Ordbog, and available through a CLARIN...
    • XML
  • Dette korpus indeholder n-grammer på dansk afledt af et korpus på 290 millioner ord med danske nyhedsarktikler fra aviserne Berlingske Tidende, Ekstrabladet og Politiken....
    • TXT