I forbindelse med min phd-afhandling bearbejdede jeg data fra DanPASS-korpussets Praat textgrids. Disse data kan frit benyttes til ethvert formål forudsat at jeg bliver krediteret.
Data indeholder den oprindelige textgridinformation DanPASS omorganiseret i semikolonseparerede kolonner i en txt-fil:
- filnavn
- intervalnummer
- starttid
- varighed
- ortografi inkl. betoning
- Focus/topic
- PoS
- PoS (simpel)
- Morfofonematisk notation (abstrakt notation)
- Snæver transskription (realiseret udtale)
- Tryk og tone
- Fraseintonation
- Frase start/slut
Hertil har jeg lavet ekstra opmærkning af korpusset:
- Renset ortografi
- Renset morfofonologi + stavelsesgrænser
- Bred transskription (idealiseret udtale)
- Mapping mellem bred og snæver transskription (idealiseret og faktisk udtale)
- Bedømmelse af distinkt/reduceret
- Lemmatisering (via CST lemmatizer)
- Segmentering af lukkefaser
- Ordstruktur
- Mapping mellem bred og snæver transskription + ordstruktur
Kontakt mig for yderligere forklaring af de enkelte elementer.
Referencer:
- https://www.danpass.hum.ku.dk/
- Grønnum, N. (2009). A Danish phonetically annotated spontaneous speech corpus (DanPASS). Speech Communication, 51(7), 594-603. https://doi.org/10.1016/j.specom.2008.11.002
- Schachtenhaufen, R. (2013). Fonetisk reduktion i dansk. Copenhagen Business School [Phd]. Ph.D.serie No. 15.2013 (Link)

DanPASS-opmærkning by Ruben Schachtenhaufen er licenseret under en Creative Commons Kreditering-Deling på samme vilkår 4.0 International-licens.
Baseret på et værk ved schwa.dk/filer/danpass_txt.zip.