De hyppigste danske stavelser

Jeg har lavet et lille script der kan tælle hyppigheden af stavelser i en tekst. Der er godt nok tale om fonologiske stavelser, hvor stavelsesgrænsen går lidt anderledes end man er vant til ifølge retskrivningsprincipperne. Desuden kræves det at teksten er skrevet i fonemskrift, og det er der ikke mange tekster der.

Men DanPASS-korpusset er annoteret i fonemskrift, så det kan bruges til at give et billede af stavelsesfrekvensen i dansk. Og hvilken stavelse er så mon den hyppigste? Jeg kan med stor glæde afsløre at den hyppigste danske stavelse, med overvældende vægt er (trommehvirvel):

ə

Ja, et lille isoleret schwa (et tryksvagt e) er den hyppigste danske stavelse, og den er næsten 50 % mere hyppig end den næsthyppigste stavelse, som er meget beslægtet, nemlig /ər/.

Der er 1395 forskellige stavelser i korpusset. 354 af dem forekommer kun en enkelt gang (jeg ved ikke hvor mange mulige stavelser der er i dansk, men det kan beregnes). Bemærk at jeg ikke har skelnet mellem betonede og ubetonede stavelser. Her listen over de 20 hyppigste stavelser i korpusset:

(hele listen med alle 1395 stavelser findes her)

nummer. stavelse antal
1 ə 7093
2 ər 4796
3 4003
4 du 3955
5 ja 3545
6 ɔv 3142
7 de 2454
8 dɛnˀ 2015
9 ən 1943
10 deːˀr 1743
11 eːˀn 1651
12 jaj 1644
13 ɛr 1636
14 əd 1563
15 fɔr 1489
16 pɔːˀ 1444
17 tel 1317
18 haːˀr 1275
19 gɔːˀr 1190
20 skal 1062

Man kan se at listen både indeholder hyppige morfologiske dele, som /ə ər ən əd/, og hyppige enstavede funktionsord, som så, du, ja, og, det, den, der, en, jeg, er, for, på, til, har, skal. Bemærk at scriptet ikke skelner mellem om fx /ja/ er et isoleret ord eller fx første stavelser i januar, men det er klart at disse funktionsords hyppighed er den primære årsag til at stavelserne er så hyppige.

Mit bud er at listen ville se nogenlunde ud på samme måde i et tilfældigt andet korpus. Det eneste ord der er overrepræsenteret i top 20, er går. Frasen ‘så går du …‘ er langt hyppigere i DanPASS end i de fleste dagligdags samtaler, da en stor del af korpusset er samtaler hvor man skal guide hinanden rundt på et kort. Ligeledes er der uden for top 20 en overrepræsentation af retningsangivelser, /syd øst norˀd vɛst/ er fx på hhv. plads nr. 21, 26, 28 og 32.

Stavelsesdeling

Principperne for stavelsedeling er dem der er givet i Basbøll (2005). Principperne siger at:

  • Så mange konsonanter som muligt går til efterfølgende stavelse. Dvs. i et ord som /ekstra/, hvor både /ek.stra eks.tra ekst.ra/ giver mulige danske stavelser, så er det den første mulighed /ek.stra/, som giver flest muligt konsonanter til efterfølgende stavelse, der vælges.
  • Undtagelse: Foran /ə/ går mindst én konsonant til foranstående stavelse. Dvs. i fx lave går /v/ til første stavelse /la:v.ə/, mens det i lava går til den efterfølgende stavelse /la:.va/.

Disse principper adskiller sig fra retskrivningsprincipperne, men meningen er her at man skal give regler for hvordan ord udtales ud fra deres fonologiske form. Således redegør man på denne måde bl.a. for at /v/ udtales [w] i lave og [v] i lava. Retskrivningsprincipperne tager udelukkende typografisk æstetiske hensyn.

Bemærk også at deres er tale om fonemskrift og ikke almindelig ortografi, og ikke lydskrift. Fonemskrift er groft sagt den måde vi burde stave på, hvis udtalen skulle være (næsten) 100 % forudsigelig ud fra skriften, samtidig med at man skulle begrænse antallet af bogstaver i alfabetet så meget som muligt. Dvs. man dropper stumme bogstaver (fx hvad til /vad/), markerer vokallængde på vokalen (fx kølig til /kø:li/, markerer stød (fx gal til /ga:ˀl, retter vokaler (fx pille til /pelə/), retter konsonanter (fx chance til /sjangsə/) osv.

Fonæstemer

Da jeg startede med at læse lingvistik var noget af det første fik at vide at der ikke er nogen sammenhæng mellem et ords udtryk og dets betydning. Det lærer man sikkert stadigvæk. Vi kan ikke regne ud hvad et ord betyder, bare ved at høre hvordan det lyder, og vi kan ikke regne navnet på en ting ud udelukkende på baggrund af dets funktion.

Vi kan også se at ord med samme betydning hedder noget vidt forskelligt på forskellige sprog. Fx japansk jin, dansk menneske. Og ord der lyder ens, kan betyde noget forskelligt, fx italiensk caldo ‘varm’, svensk kalt ‘kold’. Når ord engang imellem hedder og betyder nogenlunde det samme på forskellige sprog, er der som regel en sproghistorisk forklaring.

Fonæstetik

Alligevel har man ude i den lingvistiske periferi i mange år undret sig over at der  tilsyneladende er lyde og betydninger der er knyttet til hinanden. Et af de mest velkendte eksempler er engelsk gl– som er knyttet til ord der betyder noget med lys såsom glisten, glitter, gleam, glow, glint. Vi har det også i dansk i ord som glimmer, glød, glitter, glans, glimt, gloende, glorie. På engelsk bruger man betegnelsen phonestheme (af phone + esthetic), så jeg vil oversætte det til fonæstem [fonɛˈsd̥eːˀm] (jeg er også blevet gjort opmærksom på betegnelsen eksprem).

Fonæstemer lader til at være knyttet til initiale konsonantklynger, såsom:

  • St– (opretstående, stiv): Stå, stiv, stok, stabel, stige, stang, stylter, stolpe osv.
  • Spr– (eksplosivt spredende): Sprede, sprøjte, spraye, sprinkle, springvand, ?sprudle, sprutte.
  • Kr– (rundt og krumt): Kreds, krans, krum, krøllet, kringlet, krummelurer, krank, krater, (om)kring, krog, krone, krusning, krøbling.
  • Pj- (sølle og ynkelig): Pjalt, pjaskvåd, pjattet, pjevset, pjok, pjusket, pjække.

Forklaringer

Er sammenhængen mellem lyd og betydning tilfældig, eller er der en rimelig forklaring? Det er et godt spørgsmål, og jeg er ikke overbevist om svaret. Der er nogle udmærkede slides med statistisk fremgangsmåde af Drellishak. Og Åsa Abelin har skrevet lidt om fonæstemer i svensk.

Det første man skal være opmærksom på, er selvfølgelig at fonæstemer kan opstå helt tilfældigt. Vi har et begrænset antal konsonantklynger til at udtrykke de betydninger vi har brug for. Hvis man bruger en terning til at fordele betydninger på konsonantklynger, vil nogle betydninger være mere repræsenteret af nogle konsonantklynger end andre.

Et statistisk grundproblem er at hvis man bliver ved med at lede, så finder man noget usandsynligt, og hvis leder alle konsonantgrupper igennem, så vil der med stor statistisk sikkerhed vise sig noget som ville virke usandsynligt hvis det var det var det første man havde fået øje på. Det er mao. forventeligt at man finder noget usandsynligt hvis man leder længe nok. Det betyder ikke at det ikke er tilfældigt.

En anden forklaring er at der kan være etymologiske forklaringer. Måske stammer forskellige ord med samme konsonantklynge fra ét og samme ord. I de tilfælde kan det lydlige sammenfald forklares uden at inddrage en teori om fonæstemer.

Der kan også være en onomatopoietisk forklaring. Den bedste måde at producere et springvand med sproglyde er muligvis med et kraftigt spruttende [spr]. Denne forklaring kan dog rimeligvis kun række til fænomener der involverer lyd.

Den sidste forklaring, den fonæstetiske, er selvfølgelig at der er noget om det. Vi sprogbrugere knytter lyde til betydninger. I hvert fald i et vist omfang.

Hvis en lydkombination er blevet statistisk knyttet til en betydning, kan det fornemmes af sprogbrugerne, og det kan gå hen at blive pseudoproduktivt. Det kan fx være med til at betydninger kan ændres så de svarer til lydende. Fx:

Da jeg var barn var der ikke noget i vejen med ordet lugt. Det var et neutralt ord. En rose og en lort kunne lugte, hhv. godt og skidt. I dag forbinder mange lugt med noget negativt, det er kun lort der lugter. Til gengæld er dufter blevet det nye lugter.

En fonæstetisk forklaring kunne være at ord der starter med lu– ofte (og muligvis tilfældigt, eller af helt andre grunde) har negative konnotationer, fx lusket, lumsk, ludder, lummer, ludfattig, lurendrejer, lurepasse, lus, luset. Mon ikke den negative konnotation kan smitte af på andre ord med lydlige ligheder?

Der kan selvfølgelig være andre forklaringer, såsom samfundsforandringer hvor udsendelse af naturlige duftstoffer i stigende grad er tabu, osv. Men ikke desto mindre.

Denne argumentation virker måske ok i nogen tilfælde. Men jeg har svært ved at se det virke i tilfælde som st– og kr– ovenfor. Disse konsonantpar er i det hele taget meget hyppige, og de har således også mange andre betydninger knyttet til sig.

Så, selvom der måske er noget om det, vil jeg nok betragte fonæstemer som et kuriosum snarere end en primær drivkraft i udformningen af sprog.

Til videre læsning:

(Tak til Skye for inspiration)