Ha&te
Data og Distribution(er)
-
Ha&teBIN
Tilgå Ha&te i bin format på Github.
Mere information
Yderligere info test
Felt | Værdi |
---|---|
Destinationsside | https://github.com/ogtal/Ha-te |
Metadata sidst opdateret | april 17, 2023, 08:46 (UTC) |
Metadata oprettet | juli 12, 2021, 10:20 (UTC) |
Emne | Sprog og retskrivning Uddannelse, kultur og sport |
GUID | e306f8b6-6b1f-44eb-8755-666d039e9f0d |
Kontaktemail | info@ogtal.dk |
Kontaktnavn | Ronnie Taarnborg og Edin Lind Ikanovic |
Provenance | Datastatement: "Algortimen er trænet vha. et annoteret datasæt med 11.096 tekststykker. Datasættet indeholder 3.106 eksempler på hadfuldt sprog, 2.990 eksempler på anstødeligt sprog og 5.000 eksempler på tekststykker uden sproglige angreb. De sidste to grupper er sat sammen til en klasse. Teksstykkerne er kommentarer og svar afgivet på opslag i en række offentlige Facebook Pages og større grupper. Datasættet er opdelt i et træningsdatasæt (70 procent), et evalueringsdatasæt (20 procent) og et testdatasæt (10 procnet). Trænings- og evalueringsdatasættet blev brugt til at træne og udvælge den bedste kombination af algoritmearkitektur og hyperparametre. Til det brugte vi den højest macro average F1 score. Efter udvælgelsen af den bedste algoritme blev denne testet på testdatasættet. Den bedste model bruger en dansk electra model som sprogmodel og har et feed forward lag til selve klassificeringen. Se modeldefinitionen i filen model_def.py. Den bedste model bruger en dansk electra model som sprogmodel og har et feed forward lag til selve klassificeringen. Se modeldefinitionen i filen model_def.py" |
Sprog | dansk |
URI | https://data.gov.dk/dataset/lang/e306f8b6-6b1f-44eb-8755-666d039e9f0d |
Udgivernavn | Analyse og Tal |
type | https://data.gov.dk/concept/core/lang-resource-type/Tool |
Dokumentation | |
usage | Databehandling og -analyse |