Scandi Reddit Filtered

ScandiReddit er et filtrereet korpus bestående af kommentarer fra Reddit.com. Alle Reddit kommentarer fra december 2005 til oktober 2022 blev downloadet via PushShift, hvorefter de blev filtreret ved FastText detection modellen. Alle kommentarer, der blev registreret som dansk, norsk, svensk eller islandsk, med en confidence score over 70%, blev gemt.

De resterende kommentarer blev tjekket for dubletter, som resulterede i at omkring 438000 kommentarer blev slettet. 5000 bot kommentarer og omkring 189000 upassende kommentarer blev ligeledes fjernet. Til sidst, blev også nær-dubletter fjernet. Det er alle, der har over 80% af deres ord 5-grams til fælles.

Datasættets primære opgave er træning af sprogmodeller, og er tilgængeligt på dansk, svensk, norsk og islandsk under CC BY 4.0 licens.

Dan Saattrup Nielsen fra Alexandra Instituttet har kureret datasættet.

Data og Distribution(er)

Yderligere info test

Felt Værdi
Destinationsside https://huggingface.co/datasets/alexandrainst/scandi-reddit-filtered
Metadata sidst opdateret maj 6, 2024, 07:07 (UTC)
Metadata oprettet februar 19, 2024, 11:53 (UTC)
Emne Sprog og retskrivning Uddannelse, kultur og sport
GUID 84531738-188a-4a99-8273-867b5e3bfdf1
Kontaktemail anders.j.oedersen@alexandra.dk
Kontaktnavn Anders Jess Pedersen
Opdateret 14-11-2023
Opdateringsfrekvens ubekendt
Sprog dansk norsk svensk
URI https://data.gov.dk/dataset/lang/84531738-188a-4a99-8273-867b5e3bfdf1
Udgivelsesdato 14-11-2023
Dokumentation
Dataansvarlig organisation Alexandra Instituttet