Udtræk og opmærkning af DanPASS

I forbindelse med min phd-afhandling bearbejdede jeg data fra DanPASS-korpussets Praat textgrids. Disse data kan frit benyttes til ethvert formål forudsat at jeg bliver krediteret.

Download her

Data indeholder den oprindelige textgridinformation DanPASS omorganiseret i semikolonseparerede kolonner i en txt-fil:

 • filnavn
 • intervalnummer
 • starttid
 • varighed
 • ortografi inkl. betoning
 • Focus/topic
 • PoS
 • PoS (simpel)
 • Morfofonematisk notation (abstrakt notation)
 • Snæver transskription (realiseret udtale)
 • Tryk og tone
 • Fraseintonation
 • Frase start/slut

Hertil har jeg lavet ekstra opmærkning af korpusset:

 • Renset ortografi
 • Renset morfofonologi + stavelsesgrænser
 • Bred transskription (idealiseret udtale)
 • Mapping mellem bred og snæver transskription (idealiseret og faktisk udtale)
 • Bedømmelse af distinkt/reduceret
 • Lemmatisering (via CST lemmatizer)
 • Segmentering af lukkefaser
 • Ordstruktur
 • Mapping mellem bred og snæver transskription + ordstruktur

Kontakt mig for yderligere forklaring af de enkelte elementer.

Referencer:

Creative Commons-licens
DanPASS-opmærkning by Ruben Schachtenhaufen er licenseret under en Creative Commons Kreditering-Deling på samme vilkår 4.0 International-licens.
Baseret på et værk ved schwa.dk/filer/danpass_txt.zip.