KlimaBERT

KlimaBERT er et værktøj, som kan identificere og analysere politiske citater, der er relaterede til klima. Modellen fungerer bedst ved brug af officielle tekster fra Folketinget. Hvis det politiske udsagn forudsiges at være relateret til klima, så vil det blive placeret i den positive klasse 1. Hvis det politiske udsagn, derimod, defineres som ikke-relateret til klima vil det placeres i den negative klasse 0. KlimaBERT er finetuned ved hjælp af den eksisterende model DaBERT, som gennem et datasæt bestående af citater og lovforslag fra Folketinget, er blevet trænet gennem 1000 manuelt mærkede data-points. Modellen får en F-score på 0.97, en Precision-score på 0.97 og en Recall-score på 0.97.

KlimaBERT er udviklet som led i et specialeprojekt.

Data og Distribution(er)

Yderligere info test

Felt Værdi
Destinationsside https://huggingface.co/jonahank/KlimaBERT
Metadata sidst opdateret december 7, 2022, 09:53 (UTC)
Metadata oprettet november 15, 2022, 12:14 (UTC)
Emne Uddannelse, kultur og sport
Kontaktemail jonathan.kristensen@valcon.com
Kontaktnavn Jonathan Kristensen
Opdateret 07-08-2022
Opdateringsfrekvens aldrig
Sprog dansk
URI https://data.gov.dk/dataset/lang/51dde019-f0ef-40fb-9264-85b4a8a34379
Udgivelsesdato 01-06-2022
datastatement Algoritmen er udviklet vha. et annoteret datasæt med ~1.000 tekststykker. Datasættet indeholder 550 eksempler på klima-relaterede tekststykker og 445 ikke klima-relaterede tekststykker. Tekstykkerne er officielle transkriberede udtalelser fra det danske Folketing samt officielle beskrivelser af afholdte afstemninger i Folketingssalen i perioden fra 2012 til 2022. Datasættet blev gentagende gange opdelt i trænings- og evalueringssæt med afsæt i metoden "Stratified five-fold cross-validation", så flest mulige datapunkter kunne indkluderes ved træningen af den endelige model. Dermed repræsenterer de endelige performance-metrics et gennemsnit af den fem-foldige kryds-validerede træning af modellen.
Dokumentation
usage Emneklassifikation