NST N-gram - Danish News Text

Dette korpus indeholder n-grammer på dansk afledt af et korpus på 290 millioner ord med danske nyhedsarktikler fra aviserne Berlingske Tidende, Ekstrabladet og Politiken. Aviserne er fra perioden 1995-1999. Korpuset blev oprindeligt udviklet af Nordic Language Technology (NST) i perioden 1997-2003. N-grammerne blev oprettet af Uni Research til det norske nationalbibliotek. Sekvenser på et til seks ord genereres (unigram, bigram, trigram, 4-gram, 5-gram og 6-gram) og sorteres derefter alfabetisk og efter frekvens. Der kan også downloades en forenklet version med de 1000 hyppigste n-grammer af alle ovennævnte typer. Licens: https://creativecommons.org/publicdomain/zero/1.0/

Data og Distribution(er)

Yderligere info

Felt Værdi
Destinationsside https://www.nb.no/sprakbanken/ressurskatalog/oai-nb-no-sbr-28/
Metadata sidst opdateret September 3, 2020, 12:38 (UTC)
Metadata oprettet Maj 13, 2020, 15:24 (UTC)
Emne Sprog og retskrivning Uddannelse, kultur og sport
GUID sbr-28
Identifier sbr-28
Kontaktemail nb@nb.no
Kontaktnavn Nasjonalbiblioteket
Opdateret 2012
Udgivelsesdato 2003
Udgivernavn Nationalbibliotektet i Norge
Type Korpora
Dokumentation