jaknie - Brugere - sprogteknologi.dk

Historical Danish Handwriting

The Historical Danish handwriting dataset is a Danish-language dataset containing more than 11.000 pages of transcribed and proofread handwritten text. The dataset currently...

Parquet

DanNet

DanNet is a Danish lexical semantic wordnet; i.e. a language resource where the semantic relations between words are expressed in a formal language and thereby made usable for...

CSV
OWL

Danish Semantic Reasoning Benchmark

A Danish semantic reasoning benchmark compiled from lexical semantic resources This benchmark is the first version of a semantic reasoning benchmark for Danish compiled semi-...

HTML

Framenet DK

Ordbog (et Frame-leksikon) med verbers og verbalsubstantivers semantiske rammer (Frames) ud fra standarden Berkeley FrameNet https://framenet.icsi.berkeley.edu/fndrupal/ (der...

CSV

Danish Sentiment Lexicon

Det Danske Sentimentleksikon (DDS) bygger på "Den Danske Begrebsordbog" og "Den Danske Ordbog" og er udarbejdet gennem leksikografiske metoder. DDS tilskriver en negativ eller...

CSV

CVR-data

Data fra det Centrale Virksomhedsregister (CVR), som er statens register for virksomhedsoplysninger. CVR indeholder grunddata om virksomheder og deres produktionsenheder, dvs....

JSON

AFINN

Ordliste og værktøj til sentimentanalyse skrevet i Python.

Plain text

Fineweb-2

This is the second iteration of the popular FineWeb dataset, bringing high quality pretraining data to over 1000 languages. The FineWeb2 dataset is fully reproducible, available...

Parquet

FT-Speech

FT Speech er et dansk korpus med folketingets taler i lydformat og manuelt transskriberet tekst. Datasættet er blevet kureret af Andreas Kirkedal, Marija Stepanović og Barbara...

Parquet

Fineweb-c

FineWeb-C: Educational content in many languages, labelled by the community This is a link to the Danish part of the dataset. This is a collaborative, community-driven project...

Parquet

scandi-fine-web-cleaner

Denne model er en demoklassifikator til at identificere problematisk indhold (forkert sprog, forvrænget tekst) i danske og svenske webtekster. Modellen blev udviklet som en del...

HTML

Evalueringsdatasæt for 1000 danske talemåder og faste udtryk

Det Danske Sprog- og Litteraturselskab har udviklet et datasæt til evaluering af sprogmodeller på dansk. Datasættet indeholder samlet 1000 danske talemåder og faste udtryk med...

Plain text
CSV

Medical word embedding eval

In natural language processing, benchmarks are used to track progress and identify useful models. Currently, no benchmark for Danish clinical word embeddings exists. This paper...

CSV
Parquet

Synthetic from Text Matching Long Tasks Danish

The purpose of this dataset is to pre- or post-train embedding models for Danish text matching tasks. The dataset consists of 100,000 samples generated with gemma-2-27b-it. The...

Parquet

Synthetic from Classification Tasks Danish

The purpose of this dataset is to pre- or post-train embedding models for Danish text classification tasks. The dataset consists of 100,000 samples generated with...

Parquet

Synthetic from Text Matching Short Tasks Danish

The purpose of this dataset is to pre- or post-train embedding models for Danish text matching tasks on short texts. The dataset consists of 100,000 samples generated with...

Parquet

Synthetic from Retrieval Tasks Danish

The purpose of this dataset is to pre- or post-train embedding models for Danish retrieval tasks. The dataset consists of 100,000 samples generated with gemma-2-27b-it. The...

Parquet

Synthetic from Unit Triple Tasks Danish

The purpose of this dataset is to pre- or post-train embedding models for Danish on text similarity tasks. The dataset consists of 100,000 samples generated with gemma-2-27b-it....

Parquet

Context-Aware-Splitter

Context-aware-splitter er en model til retrieval augmented generation. Modellen er udviklet til at opdele tekster på den mest optimale måde givet en kontekst. Opdeling af...

Binary Data

Coral tekst-til-tale datasæt

Datasættet består af oplæsninger fra to professionelle danske talere, en kvinde og en mand, som har indlæst cirka 24 timers dansk tale hver. Datasættet er en del af CoRal-...

Parquet

Fornavne og efternavne i befolkningen i Danmark

Digitaliseringsstyrelsen udgiver et datasæt med Danmarks Statistiks lister over for- og efternavne for hele befolkningen i Danmark per januar 2020. Datasættet består af tre...

HTML

da-wikipedia-queries

Formålet med dette datasæt er at træne embedding-modeller til retrieval på dansk. Dette datasæt blev oprettet ved at vise ca. 30.000 Wikipedia-afsnit til LLM’er og bede dem om...

Parquet

Syntetisk dialog opsummering raw

Thanks to NVIDIA and Arrow Denmark for sponsoring the compute needed to generate this dataset This dataset conists of 1,000,000 synthetic dialogs in Danish and a summary of each...

Parquet

TV fra Folketinget

TV-optagelser og livetransmissioner fra alle Folketingets møder i Folketingssalen samt fra høringer og samråd. Udgivet under følgende licensbetingelser:...

HTML

Context-Aware-Splits

Datasæt genereret vh.a. DanskGPT og brugt til at træne modellen Context-Aware-Splitter. Context-aware-splitter er en model til retrieval augmented generation. Modellen er...

Parquet

Hviske v2

Hviske v2 er en state of the art dansk transskriptionsmodel der er trænet af syv.ai. Modellen er gratis at bruge, men sørg for at være opmærksom på at brugen falder indenfor...

HTML

Danoliterate Mistral 7B

Modellen "Danoliterate Mistral 7B" er en stor sprogmodel tilpasset fra Mistral AI's Mistral 7B på en blanding af dansk data. Modellen har 7 milliarder parametre og er en...

HTML

CoRal - Danish Conversational and Read-aloud Dataset

CoRal is a comprehensive Automatic Speech Recognition (ASR) dataset designed to capture the diversity of the Danish language across various dialects, accents, genders, and age...

HTML

Danoliterate Baseline Model 7B

Modellen "Danoliterate Baseline 7B" er en stor sprogmodel trænet fra bunden på en blanding af dansk data. Modellen har 7 milliarder parametre, arkitekturen fra LlaMa 2 7B og er...

HTML

Danmarks Administrative Geografiske Inddeling (DAGI)

Danmarks Administrative Geografiske Inddeling (DAGI) er et standardiseret referencedatasæt, som viser landets administrative inddelinger. DAGI-datasættet er ikke færdige...

GML
HTML

HyggeSwag

“HyggeSwag” er et evalueringsdatasæt til at foretager natursprogsvurderinger: At lade sprogsystemer vurdere hvilken ud af flere tekstfortsættelser er i overenstemmelse med almen...

Parquet

#twitterhjerne

"#twitterhjerne” er et spørgsmåls/svar-datasæt, der indeholder dansksprogede spørgsmålstweets, hver med en tilhørende række svar på spørgsmålet.

Parquet

Danish WIT

Datasættet er den danske del af WIT-Base datasættet, som blev udgivet af WikiMedia i 2021. WIT-Base er en modificeret udgave af WIT (Wikipedia Image Text), hvor billeder med...

Parquet

DanPASS udtaleordbogen

Udtaleordbog baseret på transskriptionerne i DanPASS-korpusset. Listen indeholder 67.285 transskriptioner af 2.232 fonologiske ord. Listen viser ortografisk ord,...

HTML
WAV

Citizenship Tests Da.

“Citizenship Tests Da.” er et spørgsmåls/svar-datasæt, der strukturerer flere års indfødsrets- og medborgerskabsprøver til brug af evaluering af sprogmodeller på dansk....

Parquet

Røst-315M

RØST-315M is a speech recognition model based on the CoRal-dataset, and the model is a product of the CoRal-project. CoRal is a project that aims to produce datasets that are...

HTML

AI-Aktindsigt: Skrab af Kommunale Hjemmesider

Datasættet består af flere skrab af kommunale hjemmesider udarbejdet i forbindelse med arbejdet med AI-aktindsigt projektet. Skrabet er lavet på forskellige domæner fra flere...

HTML

Danoliterate Llama 7B

Modellen "Danoliterate LlaMa 7B" er en stor sprogmodel tilpasset fra Meta AI's LlaMa 2 7B på en blanding af dansk data. Modellen har 7 milliarder parametre og er en basismodel,...

HTML

Hviske

Dansk tale-til-tekst model, baseret på OpenAI's Whisper v3 large. Modellen er trænet på flere danske datasæt og dækker ca. 300 timers dansk tale fra personer i alle...

HTML

Hisia

ML Powered Danish Sentiment Model.

HTML

DaAnonymization

DaAnonymization er en anonymiserings pipeline, der giver nem adgang til anonymisering af dansk tekst ved brug af DaCy's entitetsgenkendelse og regulære ekspressioner. Værktøjet...

HTML

DK-CLARIN Parallel Financial Corpus (da-en)

The DK-CLARIN Parallel Financial Corpus comprises 4.3 M Danish and 4.8 M English tokens from translated (parallel) documents, mainly annual reports, of the period 2002-2010 from...

XML

COR

Udgør indekset i Det Centrale Ordregister (COR) og består af en indekseret liste bestående af de fælles lemmaer i Retskrivningsordbogen. COR 1.0 består grundlæggende oplysninger...

TSV
JSON
HTML
CSV

10.000 mest frekvente lemmaer

Liste over de mest brugte ord i dansk. Indeholder kun opslagsformerne (lemmaformen, fx hus) for ordene - ikke bøjningsformer (fx husene). Frekvensen er beregnet på korpus på ca....

ZIP

DK-CLARIN Referencekorpus med dansk almensprog

DK-CLARIN Reference Corpus of General Danish has been collected as part of DK-CLARIN project, WP2.1, 2008 - 2011. All texts are in XML TEIP5 format (TEIP5DKCLARIN-format), with...

XML

DSL Synonymliste

Genereret automatisk fra Den Danske Ordbog og indeholder synonymer i onlineudgaven juni 2018. Ord + oplysning om 1-2 synonymer (1,6 synonymer pr. ordbetydning i gmsnt.). ÅBEN-...

CSV

Fejlformer af danske ord

Liste med hyppige fejlstavninger i dansk, knyttet til deres opslagsord i DDO. Listen indeholder de fejlstavede former af opslagsord og bøjningsformer, der registreres i...

CSV

Georg Brandes: Hovedstrømninger i det 19. Aarhundredes Litteratur (1872-1890)

The Danish 1st edition of Georg Brandes' main work "Hovedstrømninger i det 19de Aarhundredes Litteratur" (1872-90, en. Main Currents). The texts are critically edited and...

HTML

Fuldformliste fra Ordbog over det danske sprog

Listen indeholder opslagsordene i ODS (og ODS-S) på nettet ordnet.dk/ods samt de bøjningsformer der er registreret til brug for ordbogens søgefunktion. Listen er TAB-separeret...

CSV

COR EXT 1.0

COR.EXT 1.0 indeholder over 25.000 lemmaer fra Den Danske Ordbog, som ikke findes i COR 1.0. COR.EXT 1.0 indeholder ordklasser og de fleste bøjningsformer fra den Danske Ordbog....

TSV