Anbefalede standarder for sprogressourcer
For sprogdata og andre sprogressourcer er det vigtigt med åbne, simple, sammenlignelige og veldokumenterede formater. Det er vigtigt, at der anvendes ens formater, fordi arbejdet med data bliver lettere og gør data mere genanvendeligt.
Med udgangspunkt i input fra Dansk Sprognævn og Center for Sprogteknologi, har Digitaliseringsstyrelsen udarbejdet disse anbefalinger vedrørende lyd/tale, video, tekst, leksikalske ressourcer samt generelle anbefalinger for sprogdata. Derudover henvises der også til en række øvrige identificerede annoteringsmuligheder. Relevante interessenter - herunder følgegruppen for sprogteknologi.dk – er blevet inddraget i processen blandt andet via sprogteknologi.dks LinkedIn-side og har fået mulighed for at kommentere på anbefalingerne.
Teknologi udvikler sig og formater kan derfor også skifte over tid. Redaktionen for sprogteknologi.dk vil løbende vedligeholde og opdatere anbefalingerne efter behov med assistance fra følgegruppen for sprogteknologi.dk.
Til sprogdata anbefales generelt |
|
---|---|
Generelle anbefalinger |
Åbne formater frem for proprietære formater Tekstnære formater (plain text) frem for formater med binære data |
Til intern strukturering af |
Simple mappestrukturer Meningsbærende filnavne der er uafhængige af mappestrukturer |
Til intern dokumentation/metadata af |
Angivelse af ID, udgivelse, sted, indsamlet/bygget for hvert dokument: Angivelse af sprog: Metashare-standard til udvidet dokumentation Data Statements for NLP til at synliggøre bias |
Anbefalinger til lyd-/taledata |
|
Anbefalede formater |
Uanset format bør sample-rate altid vælges blandt: Lydoptagelse bør altid være i .wav (evt. gemmes i .flac) |
Anbefalede sample-rates |
8kHz/16kHz/20k/22.050kHz/44.1kHz/48kHz Bit-rates = 16/24 |
Organisering af lydfiler |
Lydfiler og tilhørende transskriptioner bør være opdelt på samme måde, således at indholdet af en lydfil svarer til indholdet af en transskriptionsfil, og disse to filer bør nemt kunne relateres, fx via navngivningen. Opdel gerne lyd og transskription på sætningsniveau |
Anbefalinger til videodata |
|
Generelt |
MJPEG-2000 lossless som backendformat ISO/IEC 15444-3:2002 Information technology -- JPEG 2000 image coding system Part 3: Motion JPEG 2000 MPEG-2 standarder udgivs som dele af ISO/IEC 13818-1:2019 (Information technology -- Generic coding of moving pictures and associated audio informaiton): |
Anbefalinger til tekst |
|
Anbefalede tekstformater (til simple ikke-formaterede tekstdokumenter) |
.txt |
Anbefalede tekstformater (til måledata, annotationsdata m.m. fx vektordata, statistiske data, tidskode, etc.) |
.csv JSON JSONL - særligt anvendelig til store tekstmængder, da data kan streames ind i én linje ad gangen. |
Kodning |
Fortrukken: UTF8(Unicode Transformation Format 8-bit) Andre: |
Anbefalinger til leksikalske ressourcer |
|
Anbefalinger vedrørende maskinlæsbare leksika eller termbaser |
Language resource management — Lexical markup framework (LMF), ISO 24613-1:2024 |
Anbefalinger vedrørende knowledge engineering | |
Øvrige identificerede annoteringsmuligheder |
|
Korpus annotering |
.tei - Text Encoding Initiative (TEI) (til annotation, opmærkning og repræsentation af korpora) |
Syntaktisk annotering | |
Semantisk annotering | |
Dialog annotering | |
Multimodal annotering (gestus i multimodal kommunikation) |
|
Følelses annotering (herunder sentiment annoteirng) |
|
Bemærk, at de forskellige Clarin K-centre også anbefaler standarder for deres respektive ekspertiseområder. Du finder relevant information på CLARIN's website. |