Danish Gigaword

A billion-word corpus of Danish text. Split into many sections, and covering many dimensions of variation (spoken/written, formal/informal, modern/old, rigsdansk/dialect, and so on).

The license is CC-BY 4.0, Creative Commons with Attribution.

Data og Distribution(er)

Yderligere info

Felt Værdi
Destinationsside https://gigaword.dk/
Metadata sidst opdateret juni 8, 2021, 06:57 (UTC)
Metadata oprettet juni 4, 2021, 14:00 (UTC)
Emne Sprog og retskrivning Uddannelse, kultur og sport
GUID https://data.gov.dk/dataset/lang/9cb913b5-3f49-4563-8307-8846f1429aa1
Kontaktemail ld@itu.dk
Kontaktnavn Leon Derczynski
URI https://data.gov.dk/dataset/lang/9cb913b5-3f49-4563-8307-8846f1429aa1
Udgivelsesdato 2021-06-03
Udgivernavn ITU; Leon Derczynski, Manuel R. Ciosici
Type https://data.gov.dk/concept/core/lang-resource-type/Corpus
Dokumentation
Licens