-
ScandiReddit er et filtrereet korpus bestående af kommentarer fra Reddit.com. Alle Reddit kommentarer fra december 2005 til oktober 2022 blev downloadet via PushShift, hvorefter...
- Parquet
-
ScandEval er en benchmarking platform for sprogmodeller på dansk, norsk (både bokmål og nynorsk), svensk, islandsk og færøsk. Den indeholder først og fremmest en benchmarking...
- Python
- HTML
-
Listen indeholder opslagsordene i ODS (og ODS-S) på nettet ordnet.dk/ods. Listen er TAB-separeret og rummer fire felter: opslagsform, evt. homografnummer, ordklasse og artiklens...
- CSV
-
En liste som indeholder alle bøjningsformer af opslagsordene i Den Danske Ordbog (DDO). Listen indeholder opslagsordene i DDO på nettet (ordnet.dk/ddo) samt de bøjningsformer,...
- CSV
-
Listen indeholder opslagsordene i ODS (og ODS-S) på nettet ordnet.dk/ods samt de bøjningsformer der er registreret til brug for ordbogens søgefunktion. Listen er TAB-separeret...
- CSV
-
Det Danske Sentimentleksikon (DDS) bygger på "Den Danske Begrebsordbog" og "Den Danske Ordbog" og er udarbejdet gennem leksikografiske metoder. DDS tilskriver en negativ eller...
- CSV
-
Scandinavian Embedding Benchmark (SEB), er en benchmarking platform til de Skandinaviske sprog (Dansk, Nynorsk, Bokmål, og Svensk). Benchmarket forsøger at evaluerer kvaliteten...
- Python
- HTML
-
Maskinlæsbar version af dumps fra den danske wikipedia. Se https://foundation.wikimedia.org/wiki/Terms_of_Use, da der kan forekommer forskellige licensvilkår afhængigt af...
- XML
-
Dette repository indeholder kode og modelvægtene til Rec&nition algortimen. Den er udviklet af Analyse og Tal F.M.B.A. med støtte fra TryghedsFonden. Algoritmen er designet...
- Python
-
Repository, som indeholder kode og modelvægtene til Ha&te algortimen. Den er udviklet af Analyse og Tal F.M.B.A. med støtte fra TryghedsFonden. Algoritmen er designet til at...
- BIN
-
Repository som indeholder kode og modelvægtene til A&ttack algortimen. Den er udviklet af Analyse og Tal F.M.B.A. med støtte fra TryghedsFonden. Algoritmen er designet til...
- BIN
-
Dansk taledata fra Alvenir, som særligt kan bruges til at evaluere ASR modeller på dansk. Datasættet består af ca. 5 timers tale indtalt af 50 talere mellem 20 - 60 år....
- WAV
-
Ordbogen ordbog-slovnyk.edition-4 er lavet for at hjælpe ukrainere og danskere i deres kommunikation med hinanden, og den indeholder mere end 3000 hyppige ord samt deres udtale....
-
ScandiNER er en NER (named entity recognition) model, som er bygget på den norske model fra det norske nationalbiblioteks AI labbet. Modellen er fin tunet på et kombineret...
- BIN
-
Et værktøj til at fine-tune til NLP Transformers til sentiment analyse. Udkommer sammen med et sæt modeller fine-tunet til sentiment-analyse på dansk (udgivet på Hugging Face)....
- Python
-
DaCy er et framework til processering af dansk fritekst. Særligt indeholder den tre sprogprocesserings pipelines til dansk fritekst. De pipeline er af 3 forskellige størelser...
- Python
-
DaAnonymization er en anonymiserings pipeline, der giver nem adgang til anonymisering af dansk tekst ved brug af DaCy's entitetsgenkendelse og regulære ekspressioner. Værktøjet...
- Python
-
"NB-BERT-base is a general BERT-base model built on the large digital collection at the National Library of Norway. This model is based on the same structure as BERT Cased...
- BIN
-
ELECTRA model prætrænet på dansk, på 17,5 GB data. Du kan læse mere om ELECTRA træningsmetoden i denne forskningsartikel: ELECTRA: Pre-training Text Encoders as Discriminators...
- BIN
-
To forskellige størrelser ConvBERT modeller prætrænet på dansk tekstdata (omtrent 17,5 GB data). Til prætræning er der anvendt ELECTRA Pretraining metoden. ConvBERT er en...
- BIN