Udtræk og opmærkning af DanPASS

I forbindelse med min phd-afhandling bearbejdede jeg data fra DanPASS-korpussets Praat textgrids. Disse data kan frit benyttes til ethvert formål forudsat at jeg bliver krediteret.

Download her

Data indeholder den oprindelige textgridinformation DanPASS omorganiseret i semikolonseparerede kolonner i en txt-fil:

  • filnavn
  • intervalnummer
  • starttid
  • varighed
  • ortografi inkl. betoning
  • Focus/topic
  • PoS
  • PoS (simpel)
  • Morfofonematisk notation (abstrakt notation)
  • Snæver transskription (realiseret udtale)
  • Tryk og tone
  • Fraseintonation
  • Frase start/slut

Hertil har jeg lavet ekstra opmærkning af korpusset:

  • Renset ortografi
  • Renset morfofonologi + stavelsesgrænser
  • Bred transskription (idealiseret udtale)
  • Mapping mellem bred og snæver transskription (idealiseret og faktisk udtale)
  • Bedømmelse af distinkt/reduceret
  • Lemmatisering (via CST lemmatizer)
  • Segmentering af lukkefaser
  • Ordstruktur
  • Mapping mellem bred og snæver transskription + ordstruktur

Kontakt mig for yderligere forklaring af de enkelte elementer.

Referencer:

Creative Commons-licens
DanPASS-opmærkning by Ruben Schachtenhaufen er licenseret under en Creative Commons Kreditering-Deling på samme vilkår 4.0 International-licens.
Baseret på et værk ved schwa.dk/filer/danpass_txt.zip.