179 ressourcer fundet

Filtrér resultater
  • COR.SEM.EXT 1.0 er en supplerende resurse til COR.SEM. COR.SEM.EXT indeholder betydningsforklaringer for alle betydninger i COR.SEM. For de fleste betydninger er der desuden et...
    • TSV
  • COR-S tilføjer semantisk information til en stor del af ordene i Det centrale ordregister COR-K og COR.EXT. I COR.SEM er oplysninger fra en række andre sprogressourcer samlet i...
    • TSV
  • Dette datasæt består af anonymiserede danske Twitter data, som er blev annoteret for sentimentanalysee gennem crowd-sourcing. Alt anerkendelse skal gives til forfatterne til...
    • Parquet
  • Twitter-Sent er anonymiserede dansk Twitter data, som er blevet annoteret til sentiment analyse af Alexandra Instituttet. Datasættets struktur: En række består af de følgende...
    • ZIP
    • Parquet
  • Europarl er dansk data fra Europa Parlamentet som er blevet annoteret til sentiment analyse af Alexandra Instituttet. Datasættets struktur: En række består af de følgende...
    • ZIP
  • Datasættet består af dansk data fra Leipzig Samlingen (The Leipzig Collection), som er blevet annoteret til sentiment analyse af Finn Årup Nielsen. Datasættets struktur: En...
    • CSV
  • Scandinavian Embedding Benchmark (SEB), er en benchmarking platform til de Skandinaviske sprog (Dansk, Nynorsk, Bokmål, og Svensk). Benchmarket forsøger at evaluerer kvaliteten...
    • Python
    • HTML
  • ScandEval er en benchmarking platform for sprogmodeller på dansk, norsk (både bokmål og nynorsk), svensk, islandsk og færøsk. Den indeholder først og fremmest en benchmarking...
    • Python
    • HTML
  • DanskGPT-tiny er en 1,1 milliard parametre LLaMA baseret LLM. Træningen er en fortsættelse af TinyLLaMA. Modellen er trænet på 8 milliarder tokens af dansk syntetisk tekst....
    • BIN
  • Dansk tale-til-tekst model, baseret på OpenAI's Whisper v3 large. Modellen er trænet på flere danske datasæt og dækker ca. 300 timers dansk tale fra personer i alle...
    • safetensor
  • COR.SOEGEHJAELP 1.0 er en liste med en række stavefejl og alternative stavemåder (både officielle og uofficielle), samt angivelse af korrekt form.Listen trækker på oplysninger...
    • TSV
  • COR.EXT 1.0 indeholder over 25.000 lemmaer fra Den Danske Ordbog, som ikke findes i COR 1.0. COR.EXT 1.0 indeholder ordklasser og de fleste bøjningsformer fra den Danske Ordbog....
    • TSV
  • COR
    Udgør indekset i Det Centrale Ordregister (COR) og består af en indekseret liste bestående af de fælles lemmaer i Retskrivningsordbogen. COR 1.0 består grundlæggende oplysninger...
    • TSV
    • api/json
    • HTML
    • CSV
  • SMK Open arbejder på at stille hele Statens Museum for Kunsts værker til fri benyttelse ved at digitalisere og tilgængeliggøre museets værker. Lige nu er der mere end 111.000...
    • JSON
    • HTML
  • CoRal-Models er en kodebase, som gør det enkelt at finjustere prætrænede lydmodeller, såsom Wav2Vec 2.0 eller Whisper, på et eller flere datasæt med transskriberet lyddata. Både...
  • Maskinlæsbar version af dumps fra den danske wikipedia. Se https://foundation.wikimedia.org/wiki/Terms_of_Use, da der kan forekommer forskellige licensvilkår afhængigt af...
    • XML
  • Dette repository indeholder kode og modelvægtene til Rec&nition algortimen. Den er udviklet af Analyse og Tal F.M.B.A. med støtte fra TryghedsFonden. Algoritmen er designet...
    • Python
  • The Stortinget Speech Corpus (SSC) is a 5000+ hours speech dataset for weak supervision ASR created from audio and aligned proceedings text from Stortinget, the Norwegian...
    • JSONL
  • Context-aware-splitter er en model til retrieval augmented generation. Modellen er udviklet til at opdele tekster på den mest optimale måde givet en kontekst. Opdeling af...
    • BIN
  • Datasæt genereret vh.a. DanskGPT og brugt til at træne modellen Context-Aware-Splitter. Context-aware-splitter er en model til retrieval augmented generation. Modellen er...
    • Parquet