De hyppigste danske stavelser

Jeg har lavet et lille script der kan tælle hyppigheden af stavelser i en tekst. Der er godt nok tale om fonologiske stavelser, hvor stavelsesgrænsen går lidt anderledes end man er vant til ifølge retskrivningsprincipperne. Desuden kræves det at teksten er skrevet i fonemskrift, og det er der ikke mange tekster der.

Men DanPASS-korpusset er annoteret i fonemskrift, så det kan bruges til at give et billede af stavelsesfrekvensen i dansk. Og hvilken stavelse er så mon den hyppigste? Jeg kan med stor glæde afsløre at den hyppigste danske stavelse, med overvældende vægt er (trommehvirvel):

ə

Ja, et lille isoleret schwa (et tryksvagt e) er den hyppigste danske stavelse, og den er næsten 50 % mere hyppig end den næsthyppigste stavelse, som er meget beslægtet, nemlig /ər/.

Der er 1395 forskellige stavelser i korpusset. 354 af dem forekommer kun en enkelt gang (jeg ved ikke hvor mange mulige stavelser der er i dansk, men det kan beregnes). Bemærk at jeg ikke har skelnet mellem betonede og ubetonede stavelser. Her listen over de 20 hyppigste stavelser i korpusset:

(hele listen med alle 1395 stavelser findes her)

nummer. stavelse antal
1 ə 7093
2 ər 4796
3 4003
4 du 3955
5 ja 3545
6 ɔv 3142
7 de 2454
8 dɛnˀ 2015
9 ən 1943
10 deːˀr 1743
11 eːˀn 1651
12 jaj 1644
13 ɛr 1636
14 əd 1563
15 fɔr 1489
16 pɔːˀ 1444
17 tel 1317
18 haːˀr 1275
19 gɔːˀr 1190
20 skal 1062

Man kan se at listen både indeholder hyppige morfologiske dele, som /ə ər ən əd/, og hyppige enstavede funktionsord, som så, du, ja, og, det, den, der, en, jeg, er, for, på, til, har, skal. Bemærk at scriptet ikke skelner mellem om fx /ja/ er et isoleret ord eller fx første stavelser i januar, men det er klart at disse funktionsords hyppighed er den primære årsag til at stavelserne er så hyppige.

Mit bud er at listen ville se nogenlunde ud på samme måde i et tilfældigt andet korpus. Det eneste ord der er overrepræsenteret i top 20, er går. Frasen ‘så går du …‘ er langt hyppigere i DanPASS end i de fleste dagligdags samtaler, da en stor del af korpusset er samtaler hvor man skal guide hinanden rundt på et kort. Ligeledes er der uden for top 20 en overrepræsentation af retningsangivelser, /syd øst norˀd vɛst/ er fx på hhv. plads nr. 21, 26, 28 og 32.

Stavelsesdeling

Principperne for stavelsedeling er dem der er givet i Basbøll (2005). Principperne siger at:

  • Så mange konsonanter som muligt går til efterfølgende stavelse. Dvs. i et ord som /ekstra/, hvor både /ek.stra eks.tra ekst.ra/ giver mulige danske stavelser, så er det den første mulighed /ek.stra/, som giver flest muligt konsonanter til efterfølgende stavelse, der vælges.
  • Undtagelse: Foran /ə/ går mindst én konsonant til foranstående stavelse. Dvs. i fx lave går /v/ til første stavelse /la:v.ə/, mens det i lava går til den efterfølgende stavelse /la:.va/.

Disse principper adskiller sig fra retskrivningsprincipperne, men meningen er her at man skal give regler for hvordan ord udtales ud fra deres fonologiske form. Således redegør man på denne måde bl.a. for at /v/ udtales [w] i lave og [v] i lava. Retskrivningsprincipperne tager udelukkende typografisk æstetiske hensyn.

Bemærk også at deres er tale om fonemskrift og ikke almindelig ortografi, og ikke lydskrift. Fonemskrift er groft sagt den måde vi burde stave på, hvis udtalen skulle være (næsten) 100 % forudsigelig ud fra skriften, samtidig med at man skulle begrænse antallet af bogstaver i alfabetet så meget som muligt. Dvs. man dropper stumme bogstaver (fx hvad til /vad/), markerer vokallængde på vokalen (fx kølig til /kø:li/, markerer stød (fx gal til /ga:ˀl, retter vokaler (fx pille til /pelə/), retter konsonanter (fx chance til /sjangsə/) osv.

Ny udtaleordbog baseret på DanPASS

Jeg har lavet en udtaleordbog baseret på transskriptionerne i DanPASS-korpusset. Der er en del forbedringer i forhold til den eksisterende:

  • Ordbogen er baseret på seneste udgave af DanPASS.
  • Den er Unicode-baseret, så man kan kopiere fra den og sætte ind i dokumenter.
  • Der er inkluderet fonemrepræsentation.
  • Det er html-baseret, hvilket er hurtigere at åbne og søge i end den gamle pdf-udgave.
  • Forekomsterne er sorteret efter hyppighed.
  • Det samlede antal forekomster af hvert ord er noteret.

Jeg håber på et senere tidspunkt at kunne lave en funktion så man kan se hvor i korpusset pågældende udtale findes, så man kan se hvilken kontekst udtalen forekommer i, og måske endda mulighed for at koble lyd på.