-
Digitalisering og opmærkning af trusselsbreve til projektet 'Truslers sprog og genre', der bygger på en innovativ kombination af sprogvidenskab og genrestudier med det formål at...
- XML
-
Medical spelling dictionary with terms in Danish, English and Latin This dataset has been created within the framework of the European Language Resource Coordination (ELRC)...
- TBX
-
BERT (Bidirectional Encoder Representations from Transformers) is a deep neural network model used in Natural Language Processing. The network learns the grammar and semantics...
- CKPT
-
The EUIPO Guidelines are the main point of reference for users of the European Union trade mark system and professional advisers who want to make sure they have the latest...
- TMX
-
Crowdsourced talekorpus på en lang række sprog. Korpusset er blevet skabt ved, at frivillige har doneret sætninger, oplæsninger af sætninger, samt validering af oplæsninger til...
- MP3
-
ScandiNER er en NER (named entity recognition) model, som er bygget på den norske model fra det norske nationalbiblioteks AI labbet. Modellen er fin tunet på et kombineret...
- BIN
-
The Digital Corpus of the European Parliament (DCEP) contains the majority of the documents published on the European Parliament's official website. It comprises a variety of...
- XML
- SGML
- TXT
-
The STO (SprogTeknologisk Ordbase) lexicon is a comprehensive computational lexicon of Danish developed for NLP/HLT applications. The syntax layer of the lexicon, presented here...
- LMF
- CSV
-
CST's lemmatiser fører hvert ord i en tekst tilbage til grundformen, lemmaet.
- C/C++
-
Stammer fra NST (Nordisk Språkteknologi) som gik konkurs i 2003. Er holdt ajour i den norske sprogbank i Nationalbiblioteket.
- TXT
-
Danish multi-task CNN trained on UD Danish DDT and DaNE. Assigns context-specific token vectors, POS tags, dependency parses and named entities. Sources: Danish Universal...
- Python
- Source code
-
ML Powered Danish Sentiment Model
- Python
- Source code
-
The Danish Universal Dependencies treebank (Johannsen et al., 2015, UD-DDT) is a conversion of the Danish Dependency Treebank (Buch-Kromann et al. 2003) based on texts from...
- coNLL-U
-
Contents of https://laegemiddelstyrelsen.dk were crawled, aligned on document and sentence level and converted into a parallel corpus. Contains 22699 translation units between...
- TMX
-
JEX is multi-label classification software that automatically assigns a ranked list of the over six thousand descriptors (classes) from the controlled vocabulary of the EuroVoc...
- Java
-
Contents of https://www.vikingeskibsmuseet.dk were crawled, aligned on document and sentence level and converted into a parallel corpus. Contains 1939 translation units (EN-DA)....
- TMX
-
Et værktøj til at fine-tune til NLP Transformers til sentiment analyse. Udkommer sammen med et sæt modeller fine-tunet til sentiment-analyse på dansk (udgivet på Hugging Face)....
- Python
-
NERDA' er et værktøj (udgivet som Python-pakke) til at fine-tune NLP transformer-modeller til at identificere personer, organisationer, lokationer m.m. i tekster (=Named-Entity...
- Python
-
DaCy er et framework til processering af dansk fritekst. Særligt indeholder den tre sprogprocesserings pipelines til dansk fritekst. De pipeline er af 3 forskellige størelser...
- Python
-
Open-source Python-pakke til dansk talegenkendelse (tale-til-tekst). DanSpeech har arbejdet på at udvikle generelle talegenkendelsesmodeller siden 2018. Projektet har levet som...
- Python