Datasæt - sprogteknologi.dk

Donér din stemme taledatasæt

I Doner din stemme indsamles danske taledata. Indsamlingen foregår på donerdinstemme.dk og sker igennem frivillige donationer fra borgere. Formålet er at skabe et åbent...

JSON

CVR-data

Data fra det Centrale Virksomhedsregister (CVR), som er statens register for virksomhedsoplysninger. CVR indeholder grunddata om virksomheder og deres produktionsenheder, dvs....

JSON

Regnskabsdata

Nye og historiske regnskabsdata offentliggjort via Erhvervsstyrelsen. Samtlige selskaber i Danmark skal indberette deres årsrapport (regnskab) til Erhvervsstyrelsen. Regnskaber...

PDF
XML
ZIP

Danish Legal monolingual corpus from the contents of the retsinformation.dk web site

Danish Legal monolingual corpus from the contents of the retsinformation.dk web site This dataset has been created within the framework of the European Language Resource...

Plain text

Historical Danish Handwriting

The Historical Danish handwriting dataset is a Danish-language dataset containing more than 11.000 pages of transcribed and proofread handwritten text. The dataset currently...

Parquet

Komplet udtræk af Retskrivningsordbogen

Komplet XML-opmærket ordbog med alle bøjede former og grammatiske oplysninger, orddeling af opslagsord, eksempler, mv. Må kun bruges integreret i sprogteknologiske produkter,...

HTML
XML

DanNet

DanNet is a Danish lexical semantic wordnet; i.e. a language resource where the semantic relations between words are expressed in a formal language and thereby made usable for...

CSV
OWL

Danish Semantic Reasoning Benchmark

A Danish semantic reasoning benchmark compiled from lexical semantic resources This benchmark is the first version of a semantic reasoning benchmark for Danish compiled semi-...

HTML

Framenet DK

Ordbog (et Frame-leksikon) med verbers og verbalsubstantivers semantiske rammer (Frames) ud fra standarden Berkeley FrameNet https://framenet.icsi.berkeley.edu/fndrupal/ (der...

CSV

Danish Sentiment Lexicon

Det Danske Sentimentleksikon (DDS) bygger på "Den Danske Begrebsordbog" og "Den Danske Ordbog" og er udarbejdet gennem leksikografiske metoder. DDS tilskriver en negativ eller...

CSV

COR.SEM.EXT 1.0

COR.SEM.EXT 1.0 er en supplerende resurse til COR.SEM. COR.SEM.EXT indeholder betydningsforklaringer for alle betydninger i COR.SEM. For de fleste betydninger er der desuden et...

TSV

COR.SEM

COR.SEM tilføjer semantisk information til en stor del af ordene i Det centrale ordregister COR-K og COR.EXT. I COR.SEM er oplysninger fra en række andre sprogressourcer samlet...

TSV
HTML
CSV

Danske Taler

Danske Taler er en levende samling, der konstant udvides med aktuelle taler. Vi indfanger og transskriberer de afgørende og definerende øjeblikke, hvor politikere, debattører og...

HTML

The Danish Parliament Corpus 2009-2017, v2, w. subject annotation

The Danish Parliament Corpus 2009 - 2017, v2, w. subject area annotation indeholder udskrifter af taler holdt i Folketinget, session 2009 til 2017 (6/10 2009 - 7/9 2017) og er...

Plain text

AFINN

Ordliste og værktøj til sentimentanalyse skrevet i Python.

Plain text

Public ADL text sources

Tekster fra Arkiv for Dansk Litteratur (ADL). Ældre dansk litteratur. Licens: https://github.com/Det-Kongelige-Bibliotek/access-digital-objects/blob/master/LICENSE

XML

Fineweb-2

This is the second iteration of the popular FineWeb dataset, bringing high quality pretraining data to over 1000 languages. The FineWeb2 dataset is fully reproducible, available...

Parquet

FT-Speech

FT Speech er et dansk korpus med folketingets taler i lydformat og manuelt transskriberet tekst. Datasættet er blevet kureret af Andreas Kirkedal, Marija Stepanović og Barbara...

Parquet

Fineweb-c

FineWeb-C: Educational content in many languages, labelled by the community This is a link to the Danish part of the dataset. This is a collaborative, community-driven project...

Parquet

scandi-fine-web-cleaner

Denne model er en demoklassifikator til at identificere problematisk indhold (forkert sprog, forvrænget tekst) i danske og svenske webtekster. Modellen blev udviklet som en del...

HTML

206 sprogressourcer fundet