-
CST's tokeniserings- og segmenteringsprogram til tekst- og RTF-filer. Opdeler en tekst i ord og ordforbindelser
- HTML
-
En opmærket multimodal samling af samtaler på dansk hvor tolv deltagerpar taler sammen for at lære hinanden at kende. Deltagerne blev filmet mens de stod foran hinanden og talte...
- XML
-
The Danish 1st edition of Georg Brandes' main work "Hovedstrømninger i det 19de Aarhundredes Litteratur" (1872-90, en. Main Currents). The texts are critically edited and...
- HTML
-
CST's modificerede udgave af BRILL-taggeren POS-tagger i C/C++
- C/C++
-
This resource is an annotation of four NER types (PER, ORG, LOC, MISC) on top of the UD_Danish-DDT data. Status: published and freely available since summer 2019 Reference:...
- conll
-
Tekster fra Arkiv for Dansk Litteratur (ADL). Ældre dansk litteratur. Licens: https://github.com/Det-Kongelige-Bibliotek/access-digital-objects/blob/master/LICENSE
- XML
-
Igennem flere år har efternavnet Jensen ligget på 1. pladsen på top-20-listen over anvendte efternavne i hele befolkningen. For kvinder er det mest anvendte fornavn Anne, og for...
- HTML
-
The Leipzig Corpora Collection provides different tools and data for download, which are protected by copyright. For more details please refer to our terms of usage....
- TXT
-
Digitaliseringsstyrelsen udgiver et datasæt med Danmarks Statistiks lister over for- og efternavne for hele befolkningen i Danmark per januar 2020. Datasættet består af tre...
- TXT
-
Danske Taler er en levende samling, der konstant udvides med aktuelle taler. Vi indfanger og transskriberer de afgørende og definerende øjeblikke, hvor politikere, debattører...
- HTML
-
Nye og historiske regnskabsdata offentliggjort via Erhvervsstyrelsen. Samtlige selskaber i Danmark skal indberette deres årsrapport (regnskab) til Erhvervsstyrelsen....
- XML
-
Maskinlæsbar version af dumps fra den danske wikipedia. Se https://foundation.wikimedia.org/wiki/Terms_of_Use
- XML
- JSON
-
Retsinformation.dk er indgangen til det fælles statslige retsinformationssystem, der giver adgang til alle gældende love, bekendtgørelser og cirkulærer m.v. Der er også adgang...
- XML
- HTML
-
Maskinlæsbar version af dumps fra den danske wikipedia kilder. Se https://foundation.wikimedia.org/wiki/Terms_of_Use
- XML
-
Maskinlæsbar version af dumps fra den danske wikipedias citater. Se https://foundation.wikimedia.org/wiki/Terms_of_Use
- XML
-
A billion-word corpus of Danish text. Split into many sections, and covering many dimensions of variation (spoken/written, formal/informal, modern/old, rigsdansk/dialect, and so...
- TXT
-
MULINCO - MUltiLINgual Corpus of the University of COpenhagen. 7 eventyr af H.C.Andersen, tekster af Edgar Allen Poe, Saxos Danmarks historie og EU-traktater på flere sprog...
-
DanNet is a Danish lexical semantic wordnet; i.e. a language resource where the semantic relations between words are expressed in a formal language and thereby made usable for...
- CSV
- OWL
-
ordbog (et Frame-leksikon) med verbers og verbalsubstantivers semantiske rammer (Frames) ud fra standarden Berkeley FrameNet https://framenet.icsi.berkeley.edu/fndrupal/ (der...
- CSV
-
Language processing resources and tools for Bornholmsk, a language spoken on the island of Bornholm, with roots in Danish and closely related to Scanian. Includes corpora, word...
- ZIP