þar sem pi eru líkurnar á því að stafur númer i komi fyrir. Óreiða er oft einnig reiknuð út fyrir tvístöfunga og þrístöfunga, en tvístöfungar eru tveir stafir saman, til dæmis aa, gh og tr, og eins eru þrístöfungar þrír stafir saman. Þegar óreiða er reiknuð út fyrir tvístöfunga þarf að reikna út hversu líklegt sé að við giskum á eftirfarandi staf ef fyrsti stafur er þekktur. Ef við vitum að fyrsti stafur í tvístöfungi er h, þá vitum að mun líklegra er í íslensku að næsti stafur sé a fremur en ð því að tvístöfungurinn ha er algengari en hð. Fyrir tvístöfunga gildir aðeins flóknari formúla:
þar sem pi er eins og áður, en pi(j) eru líkurnar á því að stafur númer j komi á eftir staf númer i. Við útreikninga á þrístöfungum og fjórstöfungum þarf mikið magn texta þar sem mögulegar samsetningar bókstafa margfaldast í hvert skipti sem við bætum við staf. Í 32 stafa stafrófi eru möguleikar einstöfunga aðeins 32, mögulegir tvístöfungar eru 32 x 32 = 1.024, til eru 32 x 32 x 32 = 32.768 þrístöfungar og mögulegir fjórstöfungar eru 32 x 32 x 32 x 32 = 1.048.576. Orðasafn þarf að vera mjög stórt til að innihalda nógu marga fjórstöfunga til að gefa rétt hlutfall þeirra. Því er ekki álitlegt að reikna út óreiðu fyrir fjórstöfunga. Í raun er illmögulegt að reikna út tölfræðilega óreiðu fyrir langa stöfunga og því er takmarkað notagildi af aðferðinni. Þar að auki er raunveruleg óreiða stafa mun lægri en tölfræðilegir útreikningar benda til. Shannon reiknaði út að í 27 stafa stafrófi (26 stafir enska stafrófsins auk bils) væri óreiða 4.03 fyrir einstöfunga og 3.32 fyrir tvístöfunga, en þegar hann lét fólk giska á stafina í textanum fékk hann út óreiðuna 1.78. Til eru bráðabirgðaútreikningar fyrir óreiðu í íslensku. Þeir voru fengnir þannig að tölur úr Íslenskri orðtíðnibók voru slegnar inn í töflureikni og reiknað úr þeim. Vandi skapast af því að íslensk orðtíðni tekur líka erlenda bókstafi svo sem c, q, w, z. Í þessum útreikningum var erlendum bókstöfum sleppt og því kemur inn ákveðin óvissa vegna tvístöfunga í erlendum orðum sem eru með íslenska stafi, eins og til dæmis tvístöfungar í nafninu John, það er jo, oh og hn, en við getum ekki þekkt þá frá sömu tvístöfungum úr íslenskum orðum. Þar sem orðasafnið er svo stórt verður þessi skekkja þó líklega óveruleg. Þegar við berum tölurnar sama við útreikninga Shannons fyrir 26 stafa stafróf, en það er án bils eins og útreikningarnir fyrir íslensku stafina, kemur í ljós að þótt íslenskan sé óreglulegri þegar einn stafur er skoðaður út frá tíðni, þá er hún strax orðin reglulegri en enskan þegar tvístöfungar eru skoðaðir. Það bendir til þess að íslensk orð séu reglulegri en ensk. Þetta þýðir meðal annars að þjöppun á íslenskum texta í tölvum ætti að vera meiri en í ensku og einnig að erfiðara hljóti að vera semja krossgátur á íslensku en ensku, af því að bæði eru orðin fyrirsjáanlegri og það er einnig erfiðara að finna orð sem passa. Þó skal hafa þann fyrirvara á að ekki er hér um birtar niðurstöður að ræða og þessar tölur verða því að skoðast sem bráðabirgðaniðurstöður. Tengt efni á Vísindavefnum:
- Hver er saga krossgátunnar? eftir Ásdísi Bergþórsdóttur.
- Hvað eru til mörg orð í íslensku? eftir Guðrúnu Kvaran.
- Hver er tíðni bókstafa í íslensku ritmáli? eftir Einar Örn Þorvaldsson og Jón Gunnar Þorsteinsson.
- Hvert er algengasta orðið í íslenskri tungu? eftir JGÞ.
- Manning , C. D. & Schütze H. Foundations of Statistical Natural Language Processing. Cambridge, MA: MIT Press, 1999.
- Shannon, Claude E. ,,Prediction and entropy of printed English``. The Bell System Technical Journal, 1950: 50-64
- Myndin af Shannon er af Wikimedia Commons og myndin af vatnsglasinu er af Wikipedia.