laveste pris for generiske piller http://1apotekonline.com/

Lær noget nyt på den sjove måde:

Næsehulen og stemmelæberne McGurk-effekten Overtonesang Kardinalvokalerne Hvorfor får man lys stemme når man inhalerer helium? Strubesang

De hyppigste danske stavelser

Jeg har lavet et lille script der kan tælle hyppigheden af stavelser i en tekst. Der er godt nok tale om fonologiske stavelser, hvor stavelsesgrænsen går lidt anderledes end man er vant til ifølge retskrivningsprincipperne. Desuden kræves det at teksten er skrevet i fonemskrift, og det er der ikke mange tekster der.

Men DanPASS-korpusset er annoteret i fonemskrift, så det kan bruges til at give et billede af stavelsesfrekvensen i dansk. Og hvilken stavelse er så mon den hyppigste? Jeg kan med stor glæde afsløre at den hyppigste danske stavelse, med overvældende vægt er (trommehvirvel):

ə

Ja, et lille isoleret schwa (et tryksvagt e) er den hyppigste danske stavelse, og den er næsten 50 % mere hyppig end den næsthyppigste stavelse, som er meget beslægtet, nemlig /ər/.

Der er 1395 forskellige stavelser i korpusset. 354 af dem forekommer kun en enkelt gang (jeg ved ikke hvor mange mulige stavelser der er i dansk, men det kan beregnes). Bemærk at jeg ikke har skelnet mellem betonede og ubetonede stavelser. Her listen over de 20 hyppigste stavelser i korpusset:

(hele listen med alle 1395 stavelser findes her)

nummer. stavelse antal
1 ə 7093
2 ər 4796
3 4003
4 du 3955
5 ja 3545
6 ɔv 3142
7 de 2454
8 dɛnˀ 2015
9 ən 1943
10 deːˀr 1743
11 eːˀn 1651
12 jaj 1644
13 ɛr 1636
14 əd 1563
15 fɔr 1489
16 pɔːˀ 1444
17 tel 1317
18 haːˀr 1275
19 gɔːˀr 1190
20 skal 1062

Man kan se at listen både indeholder hyppige morfologiske dele, som /ə ər ən əd/, og hyppige enstavede funktionsord, som så, du, ja, og, det, den, der, en, jeg, er, for, på, til, har, skal. Bemærk at scriptet ikke skelner mellem om fx /ja/ er et isoleret ord eller fx første stavelser i januar, men det er klart at disse funktionsords hyppighed er den primære årsag til at stavelserne er så hyppige.

Mit bud er at listen ville se nogenlunde ud på samme måde i et tilfældigt andet korpus. Det eneste ord der er overrepræsenteret i top 20, er går. Frasen ‘så går du …‘ er langt hyppigere i DanPASS end i de fleste dagligdags samtaler, da en stor del af korpusset er samtaler hvor man skal guide hinanden rundt på et kort. Ligeledes er der uden for top 20 en overrepræsentation af retningsangivelser, /syd øst norˀd vɛst/ er fx på hhv. plads nr. 21, 26, 28 og 32.

Stavelsesdeling

Principperne for stavelsedeling er dem der er givet i Basbøll (2005). Principperne siger at:

  • Så mange konsonanter som muligt går til efterfølgende stavelse. Dvs. i et ord som /ekstra/, hvor både /ek.stra eks.tra ekst.ra/ giver mulige danske stavelser, så er det den første mulighed /ek.stra/, som giver flest muligt konsonanter til efterfølgende stavelse, der vælges.
  • Undtagelse: Foran /ə/ går mindst én konsonant til foranstående stavelse. Dvs. i fx lave går /v/ til første stavelse /la:v.ə/, mens det i lava går til den efterfølgende stavelse /la:.va/.

Disse principper adskiller sig fra retskrivningsprincipperne, men meningen er her at man skal give regler for hvordan ord udtales ud fra deres fonologiske form. Således redegør man på denne måde bl.a. for at /v/ udtales [w] i lave og [v] i lava. Retskrivningsprincipperne tager udelukkende typografisk æstetiske hensyn.

Bemærk også at deres er tale om fonemskrift og ikke almindelig ortografi, og ikke lydskrift. Fonemskrift er groft sagt den måde vi burde stave på, hvis udtalen skulle være (næsten) 100 % forudsigelig ud fra skriften, samtidig med at man skulle begrænse antallet af bogstaver i alfabetet så meget som muligt. Dvs. man dropper stumme bogstaver (fx hvad til /vad/), markerer vokallængde på vokalen (fx kølig til /kø:li/, markerer stød (fx gal til /ga:ˀl, retter vokaler (fx pille til /pelə/), retter konsonanter (fx chance til /sjangsə/) osv.

7 Comments

  1. Jesper Kruse siger:

    Meget spændende! Kan du på baggrund af dine data og til glæde for mig sige noget om den relative frekvens af hvert vokalfonem/stavelsesnukleus? Jeg går ud fra, at schwa også i den liste indtager en suveræn førsteplads?

  2. Ja, her er en optælling af vokalfonemer i DanPASS:

    ə 20145
    a 15650
    ɔ 13313
    ɛ 10387
    e 9758
    eːʔ 5652
    u 5045
    ɔːʔ 4400
    i 3612
    o 2634
    aːʔ 2582
    iːʔ 2040
    iː 1776
    ø 1774
    oːʔ 1597
    y 1367
    aː 1236
    œ 839
    uːʔ 682
    uː 611
    eː 492
    øːʔ 411
    ɛː 394
    oː 388
    ɔː 366
    ɛːʔ 310
    øː 201
    œːʔ 103
    yːʔ 59
    yː 38
    œː 13

    Igen er schwa i toppen. Hvis man dog ikke skelner mellem om vokalen er kort, lang eller stødt, er der kun lidt færre /a/ og /ɔ/ end /ə/. Omvendt, hvis man synes at /a/ i virkeligheden dækker over to fonemer, /a/ og /ɑ/, og /ɔ/ ligeledes over to fonemer, /ɔ/ og /ʌ/, øges afstanden til schwa betragteligt.

    Det er i øvrigt værd at bemærke hvor sjældne de rundede fortungevokaler er (/y ø œ/), især de lange/stødte af slagsen.

  3. Det blev lidt mudret stillet op. Se listen her: http://schwa.dk/filer/vowel_freq.txt

  4. Hej Ruben
    Jeg undrer mig lige lidt over at du skriver “ga:ˀl” og ikke “gaˀl”. Har du en god forklaring på hvad forskellen mellem de to udtaler ville være?

    Jeg har tidligere mødt transskriptionen “gaˀl” (i Grønnums Rød Grød med Fløde). Logikken er at stødet i sig selv gør vokalen lang. Min sprogfornemmelse er imidlertid mere enig med dig.

    Kan du belyse sagen lidt mere?

    Mange hilsner
    Søren Stochholm
    Sprogszonen

    1. Hej Søren

      Der er tale om to forskellige lydskriftpraksisser. De to skrivemåder dækker som udgangspunkt over samme udtale. Nogen udelader længdesymbolet på stødvokaler, fordi stødsymbolet i sig selv er nok til at vise at vokalen er lang. Længdesymbolet er således i en vis forstand overflødigt på stødvokaler.

      Jeg synes dog det er mest redeligt at skrive længdesymbolet alligevel, da man således viser at vokalen er lang. Et stødtegn efter en konsonant betyder jo heller ikke at konsonanten er lang. Det er nok også i farten lettere at forveksle skrivemåder som fx [fulˀ] vs. [fuˀl] end [fulˀ] vs. [fuːˀl], som er udtalen af hhv. ‘fuld’ og ‘fugl’.

      Håber det afklarede sagen.

  5. Søren siger:

    Det gjorde det, tak for det.

    Jeg kunne ikke være mere enig.
    Og fugl-fuld er et supergodt minimalpar til at vise en ellers svær forskel. Har du flere gode par? Fx [veːˀn] (‘Hven’, øen) og [venˀ] (‘vind’)

    1. Andre tilsvarende par er fx:

      hvil – vild
      hyl – hyld
      pæn – pen
      larm – lam
      en – ind
      lån – lund

      … og der er sikker en del flere.

Skriv et svar

Din e-mailadresse vil ikke blive offentliggjort. Krævede felter er markeret med *

Følg med

rss e-mail FB Twitter