Om os
Sprogteknologi.dk
Digitaliseringsstyrelsen samler og udstiller metadata om relevante danske sprogressourcer, som led i den fællesoffentlige indsats for dansk sprogteknologi. Det politiske afsæt for sprogteknologi.dk findes i den tidligere Nationale strategi for kunstig intelligens fra 2019, Digitaliseringspagten og Økonomiaftalerne for 2020 mellem Regeringen, KL og Danske Regioner, hvori etableringen af en fællesdansk sprogressource blev vedtaget. Sidenhen har indsatsen for styrket dansk sprogteknologi også været indskrevet i nyere politiske aftaler.
Den politiske forankring af sprogteknologi.dk er i ’Styregruppen for digital innovation og grøn omstilling’, der består af en række statslige myndigheder, KL og Danske Regioner. Digitaliseringsstyrelsen er sekretariat for sprogteknologi.dk.
Kontakt os gerne ved at skrive til info@sprogteknologi.dk.
Vision og målsætning
Digitaliseringsstyrelsens ambition er, at løsninger som involverer kunstig intelligens skal fungere ligeså godt i en dansk kontekst, som i konteksten af de større sprog. Styrelsen anser i den forbindelse danske sprogdata som en strategisk ressource, som er nødvendige for at sikre, at kunstig intelligens kan anvendes i Danmark lige nu og i fremtiden. Derfor fokuserer styrelsen på arbejdet med sprogressourcer og ikke med den egentlige udvikling af nye sprogteknologiske løsninger eller sprogmodeller.
Størstedelen af den sprogteknologi der udvikles i dag, udvikles med udgangspunkt i de større sprog, som fx engelsk, kinesisk, spansk, tysk og fransk, hvorfor sprogteknologi oftest mangler forståelse og kendskab til det danske sprog og dansk kultur. Sprogteknologi bygger på data, som repræsenterer sproglige karakteristika, kulturelle normer og værdier og har derfor betydning for, hvordan teknologien tolker input og hvordan den svarer. Manglende tilgængelige danske sprogressourcer gør det vanskeligt eller ineffektiv, at bruge ny teknologi i en dansk kontekst.
Arbejdsområder
Arbejdet for sprogteknologi.dk tager bl.a. udgangspunkt i nogle af de anbefalinger, som Sprogteknologiudvalget, nedsat af Kulturministeriet, kom med i rapporten "Dansk sprogteknologi i verdensklasse" i april 2019. I 2023 arrangerede sekretariatet for sprogteknologi.dk to workshops, hvor indsatsens fokusområder og målsætning blev diskuteret med interessentlandskabet for dansk sprogteknologi. Sprogteknologi.dk's arbejde kan opdeles i tre områder:
1) Videndeling om og udstilling af eksisterende sprogressourcer
Sitet Sprogteknologi.dk samler og udstiller metadata om en lang række danske sprogressourcer på ét sted. Formålet hermed er, at gøre det lettere for udgivere af sprogressourcer at dele og lettere for udviklere af dansk sprogteknologi at finde danske sprogressourcer.
I forlængelse af den digitale platform arbejdes der på at etablere en løbende videndeling blandt aktører i det danske sprogteknologiske landskab. Videndelingen består blandt andet i at gøre opmærksomme på nytilkommende sprogressourcer eller igangværende projekter, som involverer dansk sprogteknologi via sitet og LinkedIn. Hertil arrangerer sekretariatet for sprogteknologi.dk i samarbejde med andre aktører den årlige sprogteknologiske konference, workshops, gå-hjem-møder og hackathons.
2) Koordination omkring og udvikling af nye højkvalitets sprogressourcer
Digitaliseringsstyrelsen arbejder også med udvikling af nye højkvalitetssprogressoucer og forsøger herved at imødekomme efterspørgslen på efterspurgte sprogressourcer. Styrelsen er bl.a. involveret i CoRal projektet og projekt vedr. Det centrale ordregister og har stået for udgivelsen af Nota lyd- og tekstdata samt et scrape af Region Hovedstadens dokumentportal.
3) Internationalt samarbejde
Digitaliseringsstyrelsen deltager som repræsentant for Danmark i det fælleseuropæiske Language Data Space og i den Europæiske Alliance for sprogteknologi (ALT-EDIC).
Hvad er sprogressourcer?
En sprogressource er en komponent, som kan anvendes til at løse en sprogrelateret opgave maskinielt.
Overordnet kan sprogressourcer beskrives ift. et udviklingsworkflow. I det følgende udviklingsflow er eksempler på sprogressourcer markeret med fed: Sprogdata og sprogteknologiske supportværktøjer, som danner træningsfundamentet for udviklingen af nye sprogteknologiske infrastrukturkomponenter. Disse tre elementer indgår på sprogteknologi.dk, mens egentlige sprogteknologiske softwareløsninger, som er slutprodukter til brugerne, ikke indgår.
Sprogdata udgør den centrale ressource for udvikling af sprogteknologi og består af forskellige former for elektronisk lagrede tekst- eller talesamlinger eller leksikalske sprogressourcer såsom ordbøger og termbaser. Sprogdataressourcerne omtales ofte som tekstkorpora, talekorpora eller leksikalske ressourcer.
Sprogteknologisk supportværktøj er også sprogressourcer, da det er værktøj, der understøtter indsamling og forarbejdning af sprogdata ved anonymisering eller opmærkning. Begrebet dækker ligeledes over værktøjer og toolkits til træning af fx sprogmodeller og akustiske modeller.
Sprogteknologiske infrastrukturkomponenter kan forstås som genbrugelige, modulære komponenter med et bestemt anvendelsesformål såsom talegenkendelse, talesyntese, sprogforståelse eller maskinoversættelse, og som kan integreres i flere forskellige softwareløsninger.
Uden for sprogteknologi.dk falder softwareløsninger, som er sprogressourcer i form af de endelige sprogløsninger, der er målrettet slutbrugeren.
Udstilling af sprogressourcer
Ønsker du at udstille dine sprogressourcer eller at gøre os opmærksomme på tilgængelige sprogressourcer, så er du meget velkommen til at skrive til os på vores mail info@sprogteknologi.dk. Vi ser gerne henvendelser fra private og offentlige organisationer, forskere og privatpersoner.
Vi opfordrer alle udgivere til at:
- bekræfte de metadata som sprogteknologi.dk har om dine sprogressourcer
- bekræfte eller informere sekretariatet, såfremt der sker ændringer i metadata om de sprogressourcer, som du udgiver
- bekræfte, at der kun udstilles metadata om de af dine sprogressourcer, der ikke er betalingspålagte
- bekræfte eller angive under hvilken licens, dine sprogressourcer må benyttes
Ved at udstille sprogressourcer på sprogteknologi.dk, accepterer man også at metadata og udstilling af ressourcen høstes til udstilling på Datavejviser og Den Europæiske Dataportal.
Anvendelsesvilkår for ressourcer og metadata
Hovedsageligt er sprogressourcer, udstillet på sprogteknologi.dk, åbne og tilgængelige. Det er dataudgivers eget ansvar at definere under hvilke betingelser, data må anvendes. Udgiver bør derfor angive, hvilken licens sprogressourcen udstilles med ved reference til et licensdokument.
Det anbefales, at licensvilkårene for sprogressourcer beskrives ved brug af standardlicenser (se fx Creative Commons. Nogle ressourcer kan dog have mere restriktive licenser, hvorfor man bør undersøge sprogressourcernes licensvilkår forud for anvendelsen af dem. Hvis der er tvivl om licensvilkår for sprogressourcerne, så ret henvendelse til kontaktpunktet, som er tilknyttet ressourcen.
De beskrivelser af sprogressourcer (dvs. metadata) som Sprogteknologi.dk udstiller stilles frit til rådighed for alle anvendere og kan genbruges og videredistribueres under Creative Commons Public Domain licens (CC0: https://creativecommons.org/publicdomain/zero/1.0/.
Ejerskabet til og ansvaret for datasæt eller øvrige sprogressourcer forbliver hos den enkelte organisation eller person, der har udgivet pågældende sprogressourcer. Udgiver af sprogressourcen har fortsat ansvaret for validiteten og kvaliteten af den enkelte sprogressource og det fulde juridiske ansvar for de sprogressourcer, som de udgiver.
Etisk anvendelse af sprogressourcer
Udviklingen af sprogteknologiske løsninger rummer store muligheder for innovation. Men, som ved al brug af data, følger også en række etiske overvejelser omkring eksempelvis bias i data og muligheder for misbrug af data.
Både dataudstillere og dataanvendere opfordres til aktivt at forsøge at undgå bias ved at sikre, at alle køn, aldersgrupper, befolkningsgrupper med videre er repræsenteret, og ved tydeligt at notere det, hvor bias ikke kan undgås.
Brugere af sprogteknologi.dk forventes til en hver tid at anvende data på en etisk forsvarlig måde, som på ingen måde kan formodes at vildlede eller volde skade. Desuden skal det altid være tydeligt, når brugere interagerer med en maskine og ikke et levende menneske.
Find mere information om principper og dataetiske værktøjer hos Dataetisk Råd.
Datamodel og tekniske snitflader
Med sprogteknologi.dk adresseres behovet for et offentligt tilgængeligt katalog over danske sprogressourcer. Portalen understøtter samtidig 'direktivet om åbne data og den offentlige sektors informationer' (PSI-direktivet) gennem en datakatalogapplikation.
Sprogressourcer udstilles i den fællesoffentlige standard for beskrivelse af datasæt (DCAT-AP-DK). Læs mere om DCAT-AP-DK standarden. Denne standard er europæisk interoperabel.
Det bagvedliggende it-system er en tilpasning af open source systemet CKAN, der driftes på Statens IT’s platform GovCloud.
En samling af datasætbeskrivelserne i kataloget kan også hentes i formaterne RDF, XML, TTL og JSONLD ved at trykke på knappen "Hent katalog" nederst på siden.
Sådan behandler vi dine persondata
1) Indsamling af statistik på sprogteknologi.dk
Vi anvender udelukkende nødvendige og statistiske cookies (valgfri) på sprogteknologi.dk. Ved at trykke på 'Ja tak til statistik' giver du samtykke til at vi indsamler statistik til at optimere brugervenlighed og styrke effektiviteten af hjemmesiden. Statistikken bliver indsamlet via Matomo som er hosted lokalt med fokus på brugerens privatliv. Du kan til enhver tid trække dit samtykke tilbage ved at trykke på det lille ikon nederst i venstre hjørne af hjemmesiden. Her kan du ændre dit samtykke ved at benytte checkboksen og derefter trykke på 'Gem indstillinger' eller 'Kun nødvendige cookies'. Her kan du også læse mere om vores brug af cookies.
2) Når du skriver til os
Her kan du læse om, hvordan vi behandler dine personoplysninger, når du skriver til info@sprogteknologi.dk.
Vi er den dataansvarlige – hvordan kontakter du os?
Digitaliseringsstyrelsen er dataansvarlig for behandlingen af de personoplysninger, du har sendt til sprogteknologi.dk. Du finder vores kontaktoplysninger nedenfor:
Digitaliseringsstyrelsen, Landgreven 4, 1301 København K
CVR-nr.: 34 05 11 78
Telefon: 33 92 52 00
E-mail: digst@digst.dk
Kontaktoplysninger på databeskyttelsesrådgiveren
Hvis du har spørgsmål til vores behandling af dine personoplysninger, er du altid velkommen til at kontakte vores databeskyttelsesrådgiver. Du kan kontakte vores databeskyttelsesrådgiver på følgende måder:
På e-mail: dpo@digst.dk
På telefon: 33 92 52 00
Ved brev: Digitaliseringsstyrelsen, Landgreven 4, 1301 København K, Att.: Databeskyttelsesrådgiveren
Formålene med og retsgrundlaget for behandlingen af dine personoplysninger
Vi behandler dine personoplysninger for at udføre den nødvendige sagsbehandling af henvendelsen. Vi behandler endvidere oplysningerne for at opnå en effektiv og rationel sagsstyring og for at kunne holde styr på, hvilke sager sprogteknologi.dk har behandlet. Behandlingen af dine personoplysninger er baseret på databeskyttelsesforordningens artikel 6, stk. 1, litra e. Hvis du har sendt os følsomme oplysninger, behandles disse i medfør af databeskyttelsesforordningens artikel 9, stk. 2, litra g. Har du sendt os oplysninger om strafbare forhold er vores behandling baseret på databeskyttelseslovens § 8, stk. 1 og stk. 2, nr. 3. Behandling af oplysninger om personnummer sker med henblik på entydig identifikation, jf. databeskyttelseslovens § 11, stk. 1.
Modtagere af dine personoplysninger
Hvis du har klaget over en behandling af personoplysninger, vil din henvendelse blive sendt til den dataansvarlige, når vi beder om en udtalelse. Har den dataansvarlige ikke har taget stilling til din henvendelse, kan vi – i stedet for at bede om en udtalelse – vælge at oversende din henvendelse til den dataansvarlige, så denne har mulighed for at tage stilling til din henvendelse, før du vurderer, om vi på ny skal inddrages i sagen. Det kan også være, at vi videregiver dine personoplysninger, hvis det på anden måde er nødvendigt for behandlingen af sagen. Det kan f.eks. være andre offentlige myndigheder, som skal bidrage til sagens oplysning. Hvis vi modtager en anmodning om aktindsigt i den sag, som dine personoplysninger indgår i, skal vi normalt videregive oplysningerne, medmindre oplysningerne er fortrolige.
Opbevaring af oplysninger om dig
Oplysninger om dig i Digitaliseringsstyrelsens elektroniske sags- og dokumenthåndteringssystem vil blive overført til opbevaring i Rigsarkivet efter reglerne i arkivlovgivningen efter afslutning af den journalperiode, hvori sagen er afsluttet. Digitaliseringsstyrelsen vil i en periode efter afslutningen af den journalperiode, hvori sagen er afsluttet og overført til opbevaring i Rigsarkivet, jf. ovenfor, fortsat have adgang til at søge oplysningerne frem i en historisk udgave af journalperioden i systemet. Den historiske udgave af journalperioden slettes senest 10 år efter afslutning af den journalperiode, hvori sagen er afsluttet.
Dine rettigheder
Du har efter databeskyttelsesforordningen en række rettigheder i forhold til vores behandling af oplysninger om dig. Hvis du vil gøre brug af dine rettigheder, skal du kontakte os.
- Ret til at se oplysninger (indsigtsret). Du har ret til at få indsigt i de oplysninger, som vi behandler om dig, og en række yderligere oplysninger.
- Ret til berigtigelse (rettelse). Du har ret til at få urigtige oplysninger om dig selv rettet.
- Ret til sletning. I helt særlige tilfælde har du ret til at få slettet oplysninger om dig, inden tidspunktet for vores almindelige generelle sletning indtræffer.
- Ret til begrænsning af behandling. Du har i visse tilfælde ret til at få behandlingen af dine personoplysninger begrænset. Hvis du har ret til at få begrænset behandlingen, må vi fremover kun behandle oplysningerne – bortset fra opbevaring – med dit samtykke, eller med henblik på, at retskrav kan fastlægges, gøres gældende eller forsvares, eller for at beskytte en person eller vigtige samfundsinteresser. Det bemærkes i den sammenhæng, at arkivformål er at betragte som vigtige samfundsinteresser.
- Ret til indsigelse. Du har i visse tilfælde ret til at gøre indsigelse mod vores ellers lovlige behandling af dine personoplysninger.
Du kan læse mere om dine rettigheder i Datatilsynets vejledning om de registreredes rettigheder.