Datasæt - sprogteknologi.dk

CVR-data

Data fra det Centrale Virksomhedsregister (CVR), som er statens register for virksomhedsoplysninger. CVR indeholder grunddata om virksomheder og deres produktionsenheder, dvs....

JSON

DanNet

DanNet is a Danish lexical semantic wordnet; i.e. a language resource where the semantic relations between words are expressed in a formal language and thereby made usable for...

CSV
OWL

AFINN

Ordliste og værktøj til sentimentanalyse skrevet i Python.

Plain text

DK-CLARIN Parallel Financial Corpus (da-en)

The DK-CLARIN Parallel Financial Corpus comprises 4.3 M Danish and 4.8 M English tokens from translated (parallel) documents, mainly annual reports, of the period 2002-2010 from...

XML

10.000 mest frekvente lemmaer

Liste over de mest brugte ord i dansk. Indeholder kun opslagsformerne (lemmaformen, fx hus) for ordene - ikke bøjningsformer (fx husene). Frekvensen er beregnet på korpus på ca....

ZIP

DK-CLARIN Referencekorpus med dansk almensprog

DK-CLARIN Reference Corpus of General Danish has been collected as part of DK-CLARIN project, WP2.1, 2008 - 2011. All texts are in XML TEIP5 format (TEIP5DKCLARIN-format), with...

XML

DSL Synonymliste

Genereret automatisk fra Den Danske Ordbog og indeholder synonymer i onlineudgaven juni 2018. Ord + oplysning om 1-2 synonymer (1,6 synonymer pr. ordbetydning i gmsnt.). ÅBEN-...

CSV

CoREST

CoREST er et værktøj til sproglige undersøgelser i meget store tekstsamlinger, såkaldte tekstkorpusser. CoREST står for Corpus Retrieval System and Tools. OBS! CoREST kan ikke...

HTML

DSL Fuldformsliste

Fuldformsleksikon med samtlige bøjningsformer for 80.000 danske lemmaer samt oplysninger om ordklasse og bøjning. Lemmaerne er indsamlet fra forskellige ældre ordbogskilder fra...

Plain text

Autoriserede stednavne i Danmark

28.000 stednavne i Danmark der har en stavemåde som er autoriseret af Kulturministeriet som gældende retskrivning. Navnene kan fremsøges via applikationen stednavne.info hvis...

HTML

CST Lemmatiser

CST's lemmatiser fører hvert ord i en tekst tilbage til grundformen, lemmaet.

HTML

Danish Gigaword

A billion-word corpus of Danish text. Split into many sections, and covering many dimensions of variation (spoken/written, formal/informal, modern/old, rigsdansk/dialect, and so...

ZIP

DUDS Jens Bille's Ballad Book, v. 1.1

DUDS Jens Bille’s Ballad Book belongs to a corpus of the oldest Danish ballad tradition. The corpus consists of 9 ballad books handed down from Renaissance ballad collectors...

XML

Dansk Wikiquote

Maskinlæsbar version af dumps fra den danske wikipedias citater. Se https://foundation.wikimedia.org/wiki/Terms_of_Use

XML

Danish Dependency Treebank (DaNE)

DaNE adds NER annotations to the The Danish Universal Dependencies Treebank (UD-DDT). The Danish UD treebank (Johannsen et al., 2015, UD-DDT) is a conversion of the Danish...

HTML

Bidirectional Long-Short Term Memory tagger

A toolkit for Part-of-Speech tagging and NER in DyNet. It has been tested on Danish, amongst other languages (for the UD POS tags in the UD_Danish-DDT version 1.1 and 2.3)...

HTML

Bornholmsk (NLP tools / data for Bornholmsk)

Language processing resources and tools for Bornholmsk, a language spoken on the island of Bornholm, with roots in Danish and closely related to Scanian. Includes corpora, word...

ZIP

Danish Universal Dependencies DDT (UD_Danish-DDT)

The Danish Universal Dependencies treebank (Johannsen et al., 2015, UD-DDT) is a conversion of the Danish Dependency Treebank (Buch-Kromann et al. 2003) based on texts from...

HTML

CST's tokeniserings- og segmenteringsprogram

CST's tokeniserings- og segmenteringsprogram til tekst- og RTF-filer. Opdeler en tekst i ord og ordforbindelser

HTML

CST STO

The STO (SprogTeknologisk Ordbase) lexicon is a comprehensive computational lexicon of Danish developed for NLP/HLT applications. The syntax layer of the lexicon, presented here...

HTML
CSV

21 sprogressourcer fundet