Ressourcer - sprogteknologi.dk

AI-Aktindsigt: Skrab af Kommunale Hjemmesider

'Datasættet består af flere skrab af kommunale hjemmesider udarbejdet i forbindelse med arbejdet med AI-aktindsigt projektet. Skrabet er lavet på forskellige domæner fra flere...

XLSX

Context-Aware-Splits

Datasæt genereret vh.a. DanskGPT og brugt til at træne modellen Context-Aware-Splitter. Context-aware-splitter er en model til retrieval augmented generation. Modellen er...

Parquet

Alvenir Wav2vec2

En word2vec2 model, som er trænet på omtrent 1300 timers dansk taledata fra podcasts og lydbøger. Modellen er trænet på 16kHz taledata, hvilket også er formatet, der skal...

BIN

DASEM Four Words

Komma opdelt fil med fire ord på hver linje, hvor det fjerde ord er en semantisk outlier.

CSV

4 ressourcer fundet