64 ressourcer fundet

Tags: Tekst

Filtrér resultater
  • The Digital Corpus of the European Parliament (DCEP) contains the majority of the documents published on the European Parliament's official website. It comprises a variety of...
    • XML
    • sgml
    • TXT
  • Samling af 3 forskellige korpusser: korpus90, korpus2000, korpus2010 (bemærkning: De dækker hver især årene rundt om 90, 2000 og 2010 (og selve året)) POS-tagget og...
    • TXT
  • Retsinformation.dk er indgangen til det fælles statslige retsinformationssystem, der giver adgang til alle gældende love, bekendtgørelser og cirkulærer m.v. Der er også adgang...
    • XML
    • HTML
    • PDF
  • Maskinlæsbar version af dumps fra den danske wikipedia kilder. Se https://foundation.wikimedia.org/wiki/Terms_of_Use
    • XML
  • Maskinlæsbar version af dumps fra den danske wikipedias citater. Se https://foundation.wikimedia.org/wiki/Terms_of_Use
    • XML
  • Maskinlæsbar version af dumps fra den danske wikipedia. Se https://foundation.wikimedia.org/wiki/Terms_of_Use
    • XML
  • Genereret automatisk fra Den Danske Ordbog og indeholder synonymer i onlineudgaven juni 2018. Ord + oplysning om 1-2 synonymer (1,6 synonymer pr. ordbetydning i gmsnt.)....
    • CSV
  • Liste over de mest brugte ord i dansk. Indeholder kun opslagsformerne (lemmaformen, fx hus) for ordene - ikke bøjningsformer (fx husene). Frekvensen er beregnet på korpus på ca....
    • TXT
  • Semantiske modeller er trænet på DSL's tekstkorpusser ved hjælp af Python-pakken Gensims. Modellerne er trænet med 500 features, et "vindue" på 5 ord omkring søgeordet og ord,...
    • NPY
  • A billion-word corpus of Danish text. Split into many sections, and covering many dimensions of variation (spoken/written, formal/informal, modern/old, rigsdansk/dialect, and so...
    • TXT
  • DanNet is a Danish lexical semantic wordnet; i.e. a language resource where the semantic relations between words are expressed in a formal language and thereby made usable for...
    • CSV
    • OWL
  • Fuldformsleksikon med samtlige bøjningsformer for 80.000 danske lemmaer samt oplysninger om ordklasse og bøjning. Lemmaerne er indsamlet fra forskellige ældre ordbogskilder fra...
    • ZIP
  • ordbog (et Frame-leksikon) med verbers og verbalsubstantivers semantiske rammer (Frames) ud fra standarden Berkeley FrameNet https://framenet.icsi.berkeley.edu/fndrupal/ (der...
    • CSV
  • PAROLE-DK er et manuelt opmærket korpus som danner en de fakto-standard for POS-opmærkning af mange danske og udenlandske resurser. ePAROLE (udgivet i 2015) er en revideret...
    • ZIP
  • BERT (Bidirectional Encoder Representations from Transformers) is a deep neural network model used in Natural Language Processing. The network learns the grammar and semantics...
  • Data fra det Centrale Virksomhedsregister (CVR), som er statens register for virksomhedsoplysninger. CVR indeholder grunddata om virksomheder og deres...
    • JSON
  • The SemDax Corpus is a Danish human-annotated corpus relying on the combined wordnet and dictionary resources: DanNet and Den Danske Ordbog, and available through a CLARIN...
  • Nye og historiske regnskabsdata offentliggjort via Erhvervsstyrelsen. Samtlige selskaber i Danmark skal indberette deres årsrapport (regnskab) til Erhvervsstyrelsen....
  • Liste med hyppige fejlstavninger i dansk, knyttet til deres opslagsord i DDO. Listen indeholder de fejlstavede former af opslagsord og bøjningsformer, der registreres i...
    • ZIP
  • Crowdsourced talekorpus på en lang række sprog. Korpusset er blevet skabt ved, at frivillige har doneret sætninger, oplæsninger af sætninger, samt validering af oplæsninger til...
    • MP3