Ressourcer - sprogteknologi.dk

TV fra Folketinget

TV-optagelser og livetransmissioner fra alle Folketingets møder i Folketingssalen samt fra høringer og samråd. Udgivet under følgende licensbetingelser:...

MP4
HTML

Scrape fra dokumentsamling på Vip Region Hovedstaden

Digitaliseringsstyrelsen udgiver ét datasæt på baggrund af offentliggjorte tekster fra Region Hovedstadens dokumentsamling. Dokumentsamlingen består af vejledninger og...

TXT

COR.SEM.EXT 1.0

COR.SEM.EXT 1.0 er en supplerende resurse til COR.SEM. COR.SEM.EXT indeholder betydningsforklaringer for alle betydninger i COR.SEM. For de fleste betydninger er der desuden et...

TSV

Europarl

Europarl er dansk data fra Europa Parlamentet som er blevet annoteret til sentiment analyse af Alexandra Instituttet. Datasættets struktur: En række består af de følgende...

ZIP

Angry Tweets Binary

Dette datasæt består af anonymiserede danske Twitter data, som er blev annoteret for sentimentanalysee gennem crowd-sourcing. Alt anerkendelse skal gives til forfatterne til...

Parquet

Finansministeriets udgivelser

Finansministeriet spiller en helt central rolle for skiftende regeringers økonomiske politik. Ministeriet er blandt andet ansvarlig for udarbejdelsen af de årlige finanslove,...

Kommunal semantisk grundmodel 2

Kommunal Semantisk Grundmodel nr. 2 er en semantisk søgemodel der en finjusteret version af den Kommunale grundmodel nr.1 til at klassificere et givet KL-område baseret på en...

BIN

Heidrun-Mistral-7B-Chat

Heidrun-Mistral-7B-chat er en chat-baseret model, som bygger på Heidrun-Mistral-7B-base og er blevet finjusteret på OpenHermes og SkoleGPT instruktion/chat datasættene. Modellen...

safetensor

Heidrun-Mistral-7B

Heidrun-Mistral-7B-base er en generativ sprogmodel, som bygger på Mistral-7B og er blevet yderligere prætrænet på det danske Wikipedia, Wikibooks og små dele af hestenettet. Den...

safetensor

Kommunal semantisk grundmodel 1

Kommunal Semantisk Grundmodel nr. 1 er en videretræning af det Norske nationalbiblioteks AI laboratories (NbAiLab) BERT-Base sprogmodel, og er trænet på 2,672,566 unikke...

BIN

Framenet DK

ordbog (et Frame-leksikon) med verbers og verbalsubstantivers semantiske rammer (Frames) ud fra standarden Berkeley FrameNet https://framenet.icsi.berkeley.edu/fndrupal/ (der...

CSV

DanNet

DanNet is a Danish lexical semantic wordnet; i.e. a language resource where the semantic relations between words are expressed in a formal language and thereby made usable for...

CSV
OWL

Danish Sentiment Lexicon

Det Danske Sentimentleksikon (DDS) bygger på "Den Danske Begrebsordbog" og "Den Danske Ordbog" og er udarbejdet gennem leksikografiske metoder. DDS tilskriver en negativ eller...

CSV

The Leipzig Collection - Dansk sentiment

Datasættet består af dansk data fra Leipzig Samlingen (The Leipzig Collection), som er blevet annoteret til sentiment analyse af Finn Årup Nielsen. Datasættets struktur: En...

CSV

Scandinavian Embedding Benchmark (SEB)

Scandinavian Embedding Benchmark (SEB), er en benchmarking platform til de Skandinaviske sprog (Dansk, Nynorsk, Bokmål, og Svensk). Benchmarket forsøger at evaluerer kvaliteten...

Python
HTML

Folketingets Åbne Data

Folketingets åbne data omfatter: metadata om sager og dokumenter i det parlamentariske arbejde i Folketingssalen samt udvalg fra oktober 2013 og fremefter. Herunder data om...

JSON
XML

DanskGPT-tiny

DanskGPT-tiny er en 1,1 milliard parametre LLaMA baseret LLM. Træningen er en fortsættelse af TinyLLaMA. Modellen er trænet på 8 milliarder tokens af dansk syntetisk tekst....

BIN

Hviske

Dansk tale-til-tekst model, baseret på OpenAI's Whisper v3 large. Modellen er trænet på flere danske datasæt og dækker ca. 300 timers dansk tale fra personer i alle...

safetensor

CoRal Models Platform

CoRal-Models er en kodebase, som gør det enkelt at finjustere prætrænede lydmodeller, såsom Wav2Vec 2.0 eller Whisper, på et eller flere datasæt med transskriberet lyddata. Både...

Dansk Wikipedia

Maskinlæsbar version af dumps fra den danske wikipedia. Se https://foundation.wikimedia.org/wiki/Terms_of_Use, da der kan forekommer forskellige licensvilkår afhængigt af...

XML

200 ressourcer fundet