Øvrige - Organisationer - sprogteknologi.dk

Udtaleordbog.dk

Udtaleordbog.dk er en online ordbog med danske ord og deres bøjningsformer transskriberet i IPA-lydskrift. Ordbogen gengiver både moderne udtale, konservativ udtale, mindre...

HTML
TXT

Udtræk og opmærkning af DanPASS

Data indeholder den oprindelige textgridinformation i DanPASS-korpusset og ekstra opmærkning af korpusset, omorganiseret i semikolonseparerede kolonner i en txt-fil.

TXT

ScandEval

ScandEval er en benchmarking platform for sprogmodeller på dansk, norsk (både bokmål og nynorsk), svensk, islandsk og færøsk. Den indeholder først og fremmest en benchmarking...

Python
HTML

Heidrun-Mistral-7B-Chat

Heidrun-Mistral-7B-chat er en chat-baseret model, som bygger på Heidrun-Mistral-7B-base og er blevet finjusteret på OpenHermes og SkoleGPT instruktion/chat datasættene. Modellen...

safetensor

Heidrun-Mistral-7B

Heidrun-Mistral-7B-base er en generativ sprogmodel, som bygger på Mistral-7B og er blevet yderligere prætrænet på det danske Wikipedia, Wikibooks og små dele af hestenettet. Den...

safetensor

DanskGPT-tiny

DanskGPT-tiny er en 1,1 milliard parametre LLaMA baseret LLM. Træningen er en fortsættelse af TinyLLaMA. Modellen er trænet på 8 milliarder tokens af dansk syntetisk tekst....

BIN

Hviske

Dansk tale-til-tekst model, baseret på OpenAI's Whisper v3 large. Modellen er trænet på flere danske datasæt og dækker ca. 300 timers dansk tale fra personer i alle...

safetensor

Context-Aware-Splitter

Context-aware-splitter er en model til retrieval augmented generation. Modellen er udviklet til at opdele tekster på den mest optimale måde givet en kontekst. Opdeling af...

BIN

Context-Aware-Splits

Datasæt genereret vh.a. DanskGPT og brugt til at træne modellen Context-Aware-Splitter. Context-aware-splitter er en model til retrieval augmented generation. Modellen er...

Parquet

Named Entity Recognition dataset til Danske juridiske tekster

Named entity recognition dataset til Danske juridiske tekster er et datasæt bestående af 2415 sætninger fra dokumenter i domsdatabasen. Disse dokumenter er annoteret med 8...

conll

Terminologi på skatteområdet

Terminologien er resultatet af begrebsafklaring på skatteområdet (knap 100 skattebegreber på dansk og engelsk), som blev foretaget i 2012, og som udgjorde det eksperimentelle...

PDF
XLSX
SKOS

Ordia

Ordia er en frontend/webapplikation, som udstiller Wikidatas leksikografiske data på en let, overskuelig og tilgængelig måde. Du kan bruge Ordia til at finde oplysninger om en...

HTML

Dansk-Ukrainsk-Engelsk Ordbog

Ordbogen ordbog-slovnyk.edition-4 er lavet for at hjælpe ukrainere og danskere i deres kommunikation med hinanden, og den indeholder mere end 3000 hyppige ord samt deres udtale....

PDF

CDT - The Copenhagen Danish-English Dependency Treebank

The Copenhagen Dependency Treebanks are a set of treebanks for Danish, English, Spanish and Italian. The purpose of the Copenhagen Dependency Treebank project is to create...

TAG
ATAG

Bornholmersnak

Udtale af ord med bornholmsk dialekt. BCP-47: da-DK-bornholm.

HTML

ScandiNER

ScandiNER er en NER (named entity recognition) model, som er bygget på den norske model fra det norske nationalbiblioteks AI labbet. Modellen er fin tunet på et kombineret...

BIN

Hisia

ML Powered Danish Sentiment Model

Python
Source code

DaCy

DaCy er et framework til processering af dansk fritekst. Særligt indeholder den tre sprogprocesserings pipelines til dansk fritekst. De pipeline er af 3 forskellige størelser...

Python

DanPASS udtaleordbogen

Udtaleordbog baseret på transskriptionerne i DanPASS-korpusset. Listen indeholder 67.285 transskriptioner af 2.232 fonologiske ord. Listen viser ortografisk ord,...

HTML
WAV

DaAnonymization

DaAnonymization er en anonymiserings pipeline, der giver nem adgang til anonymisering af dansk tekst ved brug af DaCy's entitetsgenkendelse og regulære ekspressioner. Værktøjet...

Python

26 ressourcer fundet