Nordjylland News Summarization

Oliver Kinch fra Alexandra Instituttet har kureret datasættet nordjylland-news-summarization med artikler fra TV2 Nord ved hjælp af mediehusets API. Datasættet har CC0 licens.

Sættet indeholder 75219 samples til træning, 4178 hver til validering og testing. Hver sample indeholder en tekst, en opsummering og karakterlængde. Der er i nuværende tidspunkt intet aktivt leaderboard.

Teksterne varierer fra 21 til 35164 tegn, og opsummeringerne fra 12 til 499 tegn. Der er 181 instances, hvor længden af opsummeringen overstiger længden af den tilhørende tekst.

Datasættets primære opgave er opsummering, men kan med fordel benyttes til andre formål.

Data og Distribution(er)

Yderligere info test

Felt Værdi
Metadata sidst opdateret april 26, 2024, 09:06 (UTC)
Metadata oprettet februar 19, 2024, 12:07 (UTC)
Emne Sprog og retskrivning Uddannelse, kultur og sport
GUID edb30288-7521-4886-bb90-64c5fed72556
Kontaktemail oliver.kinch@alexandra.dk
Kontaktnavn Oliver Kinch
Opdateret 28-11-2023
Opdateringsfrekvens ubekendt
Sprog dansk
URI https://data.gov.dk/dataset/lang/edb30288-7521-4886-bb90-64c5fed72556
Udgivelsesdato 19-09-2023
Dokumentation
Dataansvarlig organisation Alexandra Instituttet