Scrape fra dokumentsamling på Vip Region Hovedstaden

Digitaliseringsstyrelsen udgiver ét datasæt på baggrund af offentliggjorte tekster fra Region Hovedstadens dokumentsamling. Dokumentsamlingen består af vejledninger og oplysningsdokumenter til sundhedsfagligt personale i Region Hovedstaden. Dokumenterne indeholder derfor en række fagbegreber og -termer som hyppigt forekommer inden for sundhedssektoren.

Korpusset indeholder 9.941.236 tokens (orddeling ved mellemrum) trukket fra 15.829 dokumenter og 8923 tabeller.

Korpusset er blevet skabt på baggrund af teksterne i dokumentsamlingen og er blevet efterbehandling, således at teksterne kan anvendes til udvikling af sprogteknologi.

Martin Sundahl Laursen og Thiusius R. Savarimuthu Syddansk Universitet har hjulpet Digitaliseringsstyrelsen med efterbehandlingen af data. Læs deres fælles papir vedr. Automatic Annotation of Training Data for Deep Learning Based De-identification of Narrative Clinical Text..

Der gøres opmærksom på, at korpusset er udviklet med henblik på udvikling af sprogteknologi og må ikke bruges som sundhedsfaglig informationskilde. Dokumenterne er scrapet på et specifikt tidspunkt og vil derfor ikke være ajourført med ændringer. Der henvises i den forbindelse til Region Hovedstadens dokumentsamling

Data og Distribution(er)

Hent korpusset i .txt formatTXT
Starter download af 223 MB zip-fil med korpusset.
Mere information

Yderligere info test

Felt	Værdi
Destinationsside	https://sprogteknologi.dk/dataset/1076892a-14ee-4f14-a9db-32efb03c40c9
Metadata sidst opdateret	april 4, 2024, 07:09 (UTC)
Metadata oprettet	november 16, 2023, 12:44 (UTC)
Emne	Sundhed
GUID	1076892a-14ee-4f14-a9db-32efb03c40c9
Kontaktemail	info@sprogteknologi.dk
Kontaktnavn	Digitaliseringsstyrelsen
Sprog	dansk
URI	https://data.gov.dk/dataset/lang/1076892a-14ee-4f14-a9db-32efb03c40c9
Udgivelsesdato	30-01-2024
Dokumentation	https://sprogtek-ressources.digst.govcloud.dk/Sundhedskorpus/Dokumentation%20sundhedsfagligt%20tekstkorpus.pdf
Proveniens	Syddansk Universitet (SDU) & Region Hovedstaden
Dataansvarlig organisation	Digitaliseringsstyrelsen