Ressourcer - sprogteknologi.dk

Fornavne og efternavne i befolkningen i Danmark

Digitaliseringsstyrelsen udgiver et datasæt med Danmarks Statistiks lister over for- og efternavne for hele befolkningen i Danmark per januar 2020. Datasættet består af tre...

TXT

Regnskabsdata

Nye og historiske regnskabsdata offentliggjort via Erhvervsstyrelsen. Samtlige selskaber i Danmark skal indberette deres årsrapport (regnskab) til Erhvervsstyrelsen. Regnskaber...

PDF
XML

Folketingets Åbne Data

Folketingets åbne data omfatter: metadata om sager og dokumenter i det parlamentariske arbejde i Folketingssalen samt udvalg fra oktober 2013 og fremefter. Herunder data om...

JSON
XML

Klimarådets udgivelser

Klimarådet er et uafhængigt ekspertorgan, der rådgiver regeringen om, hvordan omstillingen til et klimaneutralt samfund kan ske, så vi i fremtiden kan leve i et Danmark med...

PDF

Klimarådets virkemiddelkatalog

Klimarådet er et uafhængigt ekspertorgan, der rådgiver regeringen om, hvordan omstillingen til et klimaneutralt samfund kan ske, så vi i fremtiden kan leve i et Danmark med...

HTML

Danske Taler

Danske Taler er en levende samling, der konstant udvides med aktuelle taler. Vi indfanger og transskriberer de afgørende og definerende øjeblikke, hvor politikere, debattører og...

HTML

Danish Dependency Treebank (DaNE)

DaNE adds NER annotations to the The Danish Universal Dependencies Treebank (UD-DDT). The Danish UD treebank (Johannsen et al., 2015, UD-DDT) is a conversion of the Danish...

coNLL-U

Autoriserede stednavne i Danmark

28.000 stednavne i Danmark der har en stavemåde som er autoriseret af Kulturministeriet som gældende retskrivning. Navnene kan fremsøges via applikationen stednavne.info hvis...

XLSX

WikiMatrix

135 mio parallelsætninger (1620 sprogpar - 85 sprog) fra Wikipedia. License: The mined data is distributed under the Creative Commons Attribution-ShareAlike license. Please cite...

TSV

SemDaX

The SemDax Corpus is a Danish human-annotated corpus relying on the combined wordnet and dictionary resources: DanNet and Den Danske Ordbog, and available through a CLARIN...

XML

NST N-gram - Danish News Text

Dette korpus indeholder n-grammer på dansk afledt af et korpus på 290 millioner ord med danske nyhedsarktikler fra aviserne Berlingske Tidende, Ekstrabladet og Politiken....

TXT

CDT - The Copenhagen Danish-English Dependency Treebank

The Copenhagen Dependency Treebanks are a set of treebanks for Danish, English, Spanish and Italian. The purpose of the Copenhagen Dependency Treebank project is to create...

TAG
ATAG

Bornholmersnak

Udtale af ord med bornholmsk dialekt. BCP-47: da-DK-bornholm.

HTML

The language and genre of threats

Digitalisering og opmærkning af trusselsbreve til projektet 'Truslers sprog og genre', der bygger på en innovativ kombination af sprogvidenskab og genrestudier med det formål at...

XML

Danish BERT

BERT (Bidirectional Encoder Representations from Transformers) is a deep neural network model used in Natural Language Processing. The network learns the grammar and semantics...

CKPT

Common Voice (Dansk)

Crowdsourced talekorpus på en lang række sprog. Korpusset er blevet skabt ved, at frivillige har doneret sætninger, oplæsninger af sætninger, samt validering af oplæsninger til...

MP3

DCEP: Digitalt korpus fra Europa-Parlamentet

The Digital Corpus of the European Parliament (DCEP) contains the majority of the documents published on the European Parliament's official website. It comprises a variety of...

XML
SGML
TXT

CST STO

The STO (SprogTeknologisk Ordbase) lexicon is a comprehensive computational lexicon of Danish developed for NLP/HLT applications. The syntax layer of the lexicon, presented here...

LMF
CSV

CST Lemmatiser

CST's lemmatiser fører hvert ord i en tekst tilbage til grundformen, lemmaet.

C/C++

NST Pronunciation Lexicon for Danish

Stammer fra NST (Nordisk Språkteknologi) som gik konkurs i 2003. Er holdt ajour i den norske sprogbank i Nationalbiblioteket.

TXT

65 ressourcer fundet