Anbefalede standarder for sprogressourcer

For sprogdata og andre sprogressourcer er det vigtigt med åbne, simple, sammenlignelige og veldokumenterede formater. Det er vigtigt, at der anvendes ens formater, fordi arbejdet med data bliver lettere og gør data mere genanvendeligt.

Med udgangspunkt i input fra Dansk Sprognævn og Center for Sprogteknologi, har Digitaliseringsstyrelsen udarbejdet disse anbefalinger vedrørende lyd/tale, video, tekst, leksikalske ressourcer samt generelle anbefalinger for sprogdata. Derudover henvises der også til en række øvrige identificerede annoteringsmuligheder. Relevante interessenter - herunder følgegruppen for sprogteknologi.dk – er blevet inddraget i processen blandt andet via sprogteknologi.dks LinkedIn-side og har fået mulighed for at kommentere på anbefalingerne.

Teknologi udvikler sig og formater kan derfor også skifte over tid. Redaktionen for sprogteknologi.dk vil løbende vedligeholde og opdatere anbefalingerne efter behov med assistance fra følgegruppen for sprogteknologi.dk.

Til sprogdata anbefales generelt

Generelle anbefalinger

Åbne formater frem for proprietære formater

Tekstnære formater (plain text) frem for formater med binære data

Til intern strukturering af
sprogdata anbefales generelt

Simple mappestrukturer

Meningsbærende filnavne der er uafhængige af mappestrukturer

Til intern dokumentation/metadata af
sprogdata anbefales generelt

Angivelse af ID, udgivelse, sted, indsamlet/bygget for hvert dokument:
JSON

Angivelse af sprog:

Metashare-standard til udvidet dokumentation

Data Statements for NLP til at synliggøre bias

Anbefalinger til lyd-/taledata

Anbefalede formater

Uanset format bør sample-rate altid vælges blandt:

.wav [compressed, non-lossy]

.flac [compressed, nonlossy]

Lydoptagelse bør altid være i .wav (evt. gemmes i .flac)

Anbefalede sample-rates

8kHz/16kHz/20k/22.050kHz/44.1kHz/48kHz

Bit-rates = 16/24

Organisering af lydfiler

Lydfiler og tilhørende transskriptioner bør være opdelt på samme måde, således at indholdet af en lydfil svarer til indholdet af en transskriptionsfil, og disse to filer bør nemt kunne relateres, fx via navngivningen.

Opdel gerne lyd og transskription på sætningsniveau

Anbefalinger til videodata

Generelt

MJPEG-2000 lossless som backendformat ISO/IEC 15444-3:2002 Information technology -- JPEG 2000 image coding system Part 3: Motion JPEG 2000

MPEG-2 standarder udgivs som dele af ISO/IEC 13818-1:2019 (Information technology -- Generic coding of moving pictures and associated audio informaiton):

https://www.iso.org/standard/83239.html

www.itu.int/rec/T-REC-H.264

Anbefalinger til tekst

Anbefalede tekstformater (til simple ikke-formaterede tekstdokumenter)

.txt

Anbefalede tekstformater (til måledata, annotationsdata m.m. fx vektordata, statistiske data, tidskode, etc.)

.csv

JSON

JSONL - særligt anvendelig til store tekstmængder, da data kan streames ind i én linje ad gangen.

Kodning

Fortrukken:

UTF8(Unicode Transformation Format 8-bit)

Andre:

UTF16 (Unicode Transformation Format 16-bit)

ISO-8859-1 (Information technology -- 8-bit single-byte coded graphic character sets -- Part 1: Latin alphabet No.1).

Anbefalinger til leksikalske ressourcer

Anbefalinger vedrørende
maskinlæsbare leksika eller termbaser

Language resource management — Lexical markup framework (LMF), ISO 24613-1:2024

TermBaseExchange format (TBX), ISO 30042:2019

Anbefalinger vedrørende knowledge engineering

Resource Description Framework (RDF)

RDF Schema 1.1 (RDF-s)

Ontology Web Language (OWL)

Simple Knowledge Organization System (SKOS)

Øvrige identificerede annoteringsmuligheder

Korpus annotering

.tei - Text Encoding Initiative (TEI) (til annotation, opmærkning og repræsentation af korpora)

Syntaktisk annotering

ISO/DIS 24611 Morpho-syntactic Annotation Framework (MAF)

ISO/CD 24615:2010 Syntactic Annotation Framework (SynAF)

Semantisk annotering

Language resource management - Semantic annotation framework (SemAF) -- Part 1: Time and events (SemAF-Time, ISO-TimeML)

Dialog annotering

ISO 24617-2 Language resource management - Semantic annotation framework (SemAF) -- Part 2: Dialogue Acts

Multimodal annotering
(gestus i multimodal kommunikation)

The MUMIN annotation framework

Følelses annotering
(herunder sentiment annoteirng)

Emotion Markup Language (EmotionML)

Bemærk, at de forskellige Clarin K-centre også anbefaler standarder for deres respektive ekspertiseområder. Du finder relevant information på CLARIN's website.