Anbefalede standarder for sprogressourcer

Introduktion

For sprogdata og andre sprogressourcer er det vigtigt med åbne, simple, sammenlignelige og veldokumenterede formater. Det er vigtigt, at der anvendes ens formater, fordi arbejdet med data bliver lettere og gør data mere genanvendeligt.

Med udgangspunkt i input fra Dansk Sprognævn og Center for Sprogteknologi, har Digitaliseringsstyrelsen udarbejdet disse anbefalinger vedrørende lyd/tale, video, tekst, leksikalske ressourcer samt generelle anbefalinger for sprogdata. Derudover henvises der også til en række øvrige identificerede annoteringsmuligheder. Relevante interessenter - herunder følgegruppen for sprogteknologi.dk – er blevet inddraget i processen blandt andet via sprogteknologi.dks LinkedIn-side og har fået mulighed for at kommentere på anbefalingerne.

Teknologi udvikler sig og formater kan derfor også skifte over tid. Redaktionen for sprogteknologi.dk vil løbende vedligeholde og opdatere anbefalingerne efter behov.

Til sprogdata anbefales generelt

Generelle anbefalinger:

Åbne formater frem for proprietære formater.
Tekstnære formater (plain text) frem for formater med binære data.

Til intern strukturering af sprogdata anbefales generelt:

Simple mappestrukturer.
Meningsbærende filnavne der er uafhængige af mappestrukturer.

Til intern dokumentation/metadata af sprogdata anbefales generelt:

Angivelse af ID, udgivelse, sted, indsamlet/bygget for hvert dokument: JSON.
Angivelse af sprog:
- ISO 639.
- IETF BCP 47.
Metashare-standard til udvidet dokumentation.
Data Statements for NLP til at synliggøre bias.

Anbefalinger til lyd-/taledata

Anbefalede formater:

Uanset format bør sample-rate altid vælges blandt:
- .wav [compressed, non-lossy].
- .flac [compressed, nonlossy].
Lydoptagelse bør altid være i.wav (evt. gemmes i .flac).

Anbefalede sample-rates:

8kHz/16kHz/20k/22.050kHz/44.1kHz/48kHz.
Bit-rates = 16/24.

Organisering af lydfiler:

Lydfiler tilhørende transskriptioner bør være opdelt på samme måde, således at indholdet af en lydfil svarer til indholdet af en transskriptionsfil, og disse to filer bør nemt kunne relateres, fx via navngivningen.
Opdel gerne lyd og transskription på sætningsniveau.

Anbefalinger til videodata

Generelt:

MJPEG-2000 lossless som backendformat ISO/IEC 15444-3:2002 Information technology -- JPEG 2000 image coding system Part 3: Motion JPEG 2000.
MPEG-2 standarder udgivs som dele af ISO/IEC 13818-1:2019 (Information technology -- Generic coding of moving pictures and associated audio informaiton):
- https://www.iso.org/standard/83239.html.
- www.itu.int/rec/T-REC-H.264.

Anbefalinger til tekst

Anbefalede tekstformater (til simple ikke-formaterede tekstdokumenter):

.txt

Anbefalede tekstformater (til måledata, annotationsdata m.m., fx vektordata, statistiske data, tidskode, osv.):

.csv
JSON
JSONL - særligt anvendelig til store tekstmængder, da data kan streames ind i én linje ad gangen.

Kodning:

Anbefalinger til leksikalske ressourcer

Anbefalinger vedrørende maskinlæsbare leksika eller termbaser:

Anbefalinger vedrørende knowledge engineering:

Øvrige identificerede annoteringsmuligheder

Korpus annotering:

.tei - Text Encoding Initiative (TEI) (til annotation, opmærkning og repræsentation af korpora).

Syntaktisk annotering:

Semantisk annotering:

Language resource management - Semantic annotation framework (SemAF) -- Part 1: Time and events (SemAF-Time, ISO-TimeML).

Dialog annotering:

ISO 24617-2 Language resource management - Semantic annotation framework (SemAF) -- Part 2: Dialogue Acts.

Multimodal annotering (gestus i multimodal kommunikation):

The MUMIN annotation framework.

Følelses annotering (herunder sentiment annotering):

Emotion Markup Language (EmotionML).

Bemærk, at de forskellige Clarin K-centre også anbefaler standarder for deres respektive ekspertiseområder. Du finder relevant information på CLARIN's website.