De hyppigste danske stavelser

Jeg har lavet et lille script der kan tælle hyppigheden af stavelser i en tekst. Der er godt nok tale om fonologiske stavelser, hvor stavelsesgrænsen går lidt anderledes end man er vant til ifølge retskrivningsprincipperne. Desuden kræves det at teksten er skrevet i fonemskrift, og det er der ikke mange tekster der.

Men DanPASS-korpusset er annoteret i fonemskrift, så det kan bruges til at give et billede af stavelsesfrekvensen i dansk. Og hvilken stavelse er så mon den hyppigste? Jeg kan med stor glæde afsløre at den hyppigste danske stavelse, med overvældende vægt er (trommehvirvel):

ə

Ja, et lille isoleret schwa (et tryksvagt e) er den hyppigste danske stavelse, og den er næsten 50 % mere hyppig end den næsthyppigste stavelse, som er meget beslægtet, nemlig /ər/.

Der er 1395 forskellige stavelser i korpusset. 354 af dem forekommer kun en enkelt gang (jeg ved ikke hvor mange mulige stavelser der er i dansk, men det kan beregnes). Bemærk at jeg ikke har skelnet mellem betonede og ubetonede stavelser. Her listen over de 20 hyppigste stavelser i korpusset:

(hele listen med alle 1395 stavelser findes her)

nummer. stavelse antal
1 ə 7093
2 ər 4796
3 4003
4 du 3955
5 ja 3545
6 ɔv 3142
7 de 2454
8 dɛnˀ 2015
9 ən 1943
10 deːˀr 1743
11 eːˀn 1651
12 jaj 1644
13 ɛr 1636
14 əd 1563
15 fɔr 1489
16 pɔːˀ 1444
17 tel 1317
18 haːˀr 1275
19 gɔːˀr 1190
20 skal 1062

Man kan se at listen både indeholder hyppige morfologiske dele, som /ə ər ən əd/, og hyppige enstavede funktionsord, som så, du, ja, og, det, den, der, en, jeg, er, for, på, til, har, skal. Bemærk at scriptet ikke skelner mellem om fx /ja/ er et isoleret ord eller fx første stavelser i januar, men det er klart at disse funktionsords hyppighed er den primære årsag til at stavelserne er så hyppige.

Mit bud er at listen ville se nogenlunde ud på samme måde i et tilfældigt andet korpus. Det eneste ord der er overrepræsenteret i top 20, er går. Frasen ‘så går du …‘ er langt hyppigere i DanPASS end i de fleste dagligdags samtaler, da en stor del af korpusset er samtaler hvor man skal guide hinanden rundt på et kort. Ligeledes er der uden for top 20 en overrepræsentation af retningsangivelser, /syd øst norˀd vɛst/ er fx på hhv. plads nr. 21, 26, 28 og 32.

Stavelsesdeling

Principperne for stavelsedeling er dem der er givet i Basbøll (2005). Principperne siger at:

 • Så mange konsonanter som muligt går til efterfølgende stavelse. Dvs. i et ord som /ekstra/, hvor både /ek.stra eks.tra ekst.ra/ giver mulige danske stavelser, så er det den første mulighed /ek.stra/, som giver flest muligt konsonanter til efterfølgende stavelse, der vælges.
 • Undtagelse: Foran /ə/ går mindst én konsonant til foranstående stavelse. Dvs. i fx lave går /v/ til første stavelse /la:v.ə/, mens det i lava går til den efterfølgende stavelse /la:.va/.

Disse principper adskiller sig fra retskrivningsprincipperne, men meningen er her at man skal give regler for hvordan ord udtales ud fra deres fonologiske form. Således redegør man på denne måde bl.a. for at /v/ udtales [w] i lave og [v] i lava. Retskrivningsprincipperne tager udelukkende typografisk æstetiske hensyn.

Bemærk også at deres er tale om fonemskrift og ikke almindelig ortografi, og ikke lydskrift. Fonemskrift er groft sagt den måde vi burde stave på, hvis udtalen skulle være (næsten) 100 % forudsigelig ud fra skriften, samtidig med at man skulle begrænse antallet af bogstaver i alfabetet så meget som muligt. Dvs. man dropper stumme bogstaver (fx hvad til /vad/), markerer vokallængde på vokalen (fx kølig til /kø:li/, markerer stød (fx gal til /ga:ˀl, retter vokaler (fx pille til /pelə/), retter konsonanter (fx chance til /sjangsə/) osv.

7 Replies to “De hyppigste danske stavelser”

 1. Meget spændende! Kan du på baggrund af dine data og til glæde for mig sige noget om den relative frekvens af hvert vokalfonem/stavelsesnukleus? Jeg går ud fra, at schwa også i den liste indtager en suveræn førsteplads?

 2. Ja, her er en optælling af vokalfonemer i DanPASS:

  ə 20145
  a 15650
  ɔ 13313
  ɛ 10387
  e 9758
  eːʔ 5652
  u 5045
  ɔːʔ 4400
  i 3612
  o 2634
  aːʔ 2582
  iːʔ 2040
  iː 1776
  ø 1774
  oːʔ 1597
  y 1367
  aː 1236
  œ 839
  uːʔ 682
  uː 611
  eː 492
  øːʔ 411
  ɛː 394
  oː 388
  ɔː 366
  ɛːʔ 310
  øː 201
  œːʔ 103
  yːʔ 59
  yː 38
  œː 13

  Igen er schwa i toppen. Hvis man dog ikke skelner mellem om vokalen er kort, lang eller stødt, er der kun lidt færre /a/ og /ɔ/ end /ə/. Omvendt, hvis man synes at /a/ i virkeligheden dækker over to fonemer, /a/ og /ɑ/, og /ɔ/ ligeledes over to fonemer, /ɔ/ og /ʌ/, øges afstanden til schwa betragteligt.

  Det er i øvrigt værd at bemærke hvor sjældne de rundede fortungevokaler er (/y ø œ/), især de lange/stødte af slagsen.

 3. Hej Ruben
  Jeg undrer mig lige lidt over at du skriver “ga:ˀl” og ikke “gaˀl”. Har du en god forklaring på hvad forskellen mellem de to udtaler ville være?

  Jeg har tidligere mødt transskriptionen “gaˀl” (i Grønnums Rød Grød med Fløde). Logikken er at stødet i sig selv gør vokalen lang. Min sprogfornemmelse er imidlertid mere enig med dig.

  Kan du belyse sagen lidt mere?

  Mange hilsner
  Søren Stochholm
  Sprogszonen

  1. Hej Søren

   Der er tale om to forskellige lydskriftpraksisser. De to skrivemåder dækker som udgangspunkt over samme udtale. Nogen udelader længdesymbolet på stødvokaler, fordi stødsymbolet i sig selv er nok til at vise at vokalen er lang. Længdesymbolet er således i en vis forstand overflødigt på stødvokaler.

   Jeg synes dog det er mest redeligt at skrive længdesymbolet alligevel, da man således viser at vokalen er lang. Et stødtegn efter en konsonant betyder jo heller ikke at konsonanten er lang. Det er nok også i farten lettere at forveksle skrivemåder som fx [fulˀ] vs. [fuˀl] end [fulˀ] vs. [fuːˀl], som er udtalen af hhv. ‘fuld’ og ‘fugl’.

   Håber det afklarede sagen.

 4. Det gjorde det, tak for det.

  Jeg kunne ikke være mere enig.
  Og fugl-fuld er et supergodt minimalpar til at vise en ellers svær forskel. Har du flere gode par? Fx [veːˀn] (‘Hven’, øen) og [venˀ] (‘vind’)

Lukket for kommentarer.