Ha&te

Repository, som indeholder kode og modelvægtene til Ha&te algortimen. Den er udviklet af Analyse og Tal F.M.B.A. med støtte fra TryghedsFonden.

Algoritmen er designet til at klassificere små tekststykker efter om de indeholder hadfuldt sprog. Den er blevet brugt til at finde hadfuldt sprog i den offentlige debat, et arbejde som man kan læse om her. En let tilgængelig beskrivelse af hvordan algoritmen er blevet til kan findes i denne artikel.

Algortimen er designet til at bruges i kombination med A&ttack algortimen."

Data og Distribution(er)

Ha&teBIN
Tilgå Ha&te i bin format på Github.
Mere information

Yderligere info test

Felt	Værdi
Destinationsside	https://github.com/ogtal/Ha-te
Metadata sidst opdateret	april 17, 2023, 08:46 (UTC)
Metadata oprettet	juli 12, 2021, 10:20 (UTC)
Emne	Sprog og retskrivning Uddannelse, kultur og sport
GUID	e306f8b6-6b1f-44eb-8755-666d039e9f0d
Kontaktemail	info@ogtal.dk
Kontaktnavn	Ronnie Taarnborg og Edin Lind Ikanovic
Provenance	Datastatement: "Algortimen er trænet vha. et annoteret datasæt med 11.096 tekststykker. Datasættet indeholder 3.106 eksempler på hadfuldt sprog, 2.990 eksempler på anstødeligt sprog og 5.000 eksempler på tekststykker uden sproglige angreb. De sidste to grupper er sat sammen til en klasse. Teksstykkerne er kommentarer og svar afgivet på opslag i en række offentlige Facebook Pages og større grupper. Datasættet er opdelt i et træningsdatasæt (70 procent), et evalueringsdatasæt (20 procent) og et testdatasæt (10 procnet). Trænings- og evalueringsdatasættet blev brugt til at træne og udvælge den bedste kombination af algoritmearkitektur og hyperparametre. Til det brugte vi den højest macro average F1 score. Efter udvælgelsen af den bedste algoritme blev denne testet på testdatasættet. Den bedste model bruger en dansk electra model som sprogmodel og har et feed forward lag til selve klassificeringen. Se modeldefinitionen i filen model_def.py. Den bedste model bruger en dansk electra model som sprogmodel og har et feed forward lag til selve klassificeringen. Se modeldefinitionen i filen model_def.py"
Sprog	dansk
URI	https://data.gov.dk/dataset/lang/e306f8b6-6b1f-44eb-8755-666d039e9f0d
Udgivernavn	Analyse og Tal
type	https://data.gov.dk/concept/core/lang-resource-type/Tool
Dokumentation	https://github.com/ogtal/Ha-te
usage	Databehandling og -analyse