Scrape fra dokumentsamling på Vip Region Hovedstaden

Digitaliseringsstyrelsen udgiver ét datasæt på baggrund af offentliggjorte tekster fra Region Hovedstadens dokumentsamling. Dokumentsamlingen består af vejledninger og oplysningsdokumenter til sundhedsfagligt personale i Region Hovedstaden. Dokumenterne indeholder derfor en række fagbegreber og -termer som hyppigt forekommer inden for sundhedssektoren.

Korpusset indeholder 9.941.236 tokens (orddeling ved mellemrum) trukket fra 15.829 dokumenter og 8923 tabeller.

Korpusset er blevet skabt på baggrund af teksterne i dokumentsamlingen og er blevet efterbehandling, således at teksterne kan anvendes til udvikling af sprogteknologi.

Martin Sundahl Laursen og Thiusius R. Savarimuthu Syddansk Universitet har hjulpet Digitaliseringsstyrelsen med efterbehandlingen af data. Læs deres fælles papir vedr. Automatic Annotation of Training Data for Deep Learning Based De-identification of Narrative Clinical Text..

Der gøres opmærksom på, at korpusset er udviklet med henblik på udvikling af sprogteknologi og må ikke bruges som sundhedsfaglig informationskilde. Dokumenterne er scrapet på et specifikt tidspunkt og vil derfor ikke være ajourført med ændringer. Der henvises i den forbindelse til Region Hovedstadens dokumentsamling

Data og Distribution(er)

Yderligere info test

Felt Værdi
Destinationsside https://sprogteknologi.dk/dataset/1076892a-14ee-4f14-a9db-32efb03c40c9
Metadata sidst opdateret april 4, 2024, 07:09 (UTC)
Metadata oprettet november 16, 2023, 12:44 (UTC)
Emne Sundhed
GUID 1076892a-14ee-4f14-a9db-32efb03c40c9
Kontaktemail info@sprogteknologi.dk
Kontaktnavn Digitaliseringsstyrelsen
Sprog dansk
URI https://data.gov.dk/dataset/lang/1076892a-14ee-4f14-a9db-32efb03c40c9
Udgivelsesdato 30-01-2024
Dokumentation
Proveniens Syddansk Universitet (SDU) & Region Hovedstaden
Dataansvarlig organisation Digitaliseringsstyrelsen