Tehnologija

Unicode i srpski jezik – kako funkcioniše srpski tekst na internetu

✍️ Konvertor tim 📅 25. januar 2025. ⏱ 8 min čitanja

Kada kucate poruku na telefonu ili pišete email na srpskom, iza kulisa se odvijaju procesi koji su daleko složeniji nego što izgledaju. Svako slovo koje vidite na ekranu – i svako ćiriličko i svako latiničko – postoji zahvaljujući međunarodnom standardu koji se zove Unicode. Bez njega, srpski jezik na internetu ne bi funkcionisao onako kako funkcioniše danas.

Šta je Unicode i zašto je nastao?

Pre Unicodea, svaki računarski sistem koristio je sopstveni standard za kodiranje teksta. Američki ASCII standard pokrirao je 128 znakova – dovoljno za engleski jezik, ali daleko premalo za jezike sa dijakritičkim znacima, a posebno nedovoljno za pisma poput ćirilice, grčkog, arapskog ili kineskog. Rezultat je bila haotična situacija u kojoj je tekst napisan na jednom sistemu izgledao kao niz besmislenih znakova na drugom.

Unicode je nastao kao rešenje: jedinstveni standard koji dodeljuje svaki mogući znak u svakom pismu na svetu jedinstvenoj numeričkoj vrednosti, tzv. code pointu. Prva verzija Unicodea objavljena je 1991. godine. Danas Unicode pokriva više od 149.000 znakova iz 161 pisma i sistema znakova.

Srpska ćirilica u Unicodeu

Srpska ćirilica ima svoj definisani blok u Unicodeu, koji pokriva osnovna slova i ona specifična za srpski jezik. Evo nekoliko primera code pointova za srpska ćirilična slova:

А – U+0410 (Cyrillic Capital Letter A)
Б – U+0411 (Cyrillic Capital Letter Be)
Ј – U+0408 (Cyrillic Capital Letter Je) – specifično srpsko slovo
Љ – U+0409 (Cyrillic Capital Letter Lje) – specifično srpsko slovo
Њ – U+040A (Cyrillic Capital Letter Nje) – specifično srpsko slovo
Ћ – U+040B (Cyrillic Capital Letter Tshe) – specifično srpsko slovo
Џ – U+040F (Cyrillic Capital Letter Dzhe) – specifično srpsko slovo

Srpska latinica koristi standardna latinična slova sa dijakritičkim znacima, koji su takođe deo Unicodea: č (U+010D), š (U+0161), ž (U+017E), đ (U+0111) i ć (U+0107).

UTF-8: kako se Unicode prenosi na internetu

Unicode definiše koje numeričke vrednosti odgovaraju kojim znacima, ali ne definiše kako se te vrednosti čuvaju u fajlovima ili prenose kroz mrežu. Za to postoje različita kodiranja, a najrasprostranjenije na internetu je UTF-8.

UTF-8 je pametno dizajniran: standardna ASCII slova (a-z, 0-9 i sl.) zauzimaju samo jedan bajt, dok znaci van ASCII opsega, uključujući ćirilicu, zauzimaju dva ili više bajtova. To znači da je UTF-8 kompaktan za engleski tekst, a istovremeno podržava sve svetske jezike.

Za srpski tekst u UTF-8 kodiranju, jedno ćirilično slovo zauzima 2 bajta. To je zašto fajl sa srpskim ćiriličnim tekstom može biti nešto veći od fajla sa istim tekstom na latinici – ali razlika je zanemarljiva u praksi.

Problemi sa starим kodiranjima

Pre masovnog usvajanja UTF-8, srpski tekst na internetu bio je pravi haos. Koristila su se razna nestandardna kodiranja:

Windows-1250 – kodiranje za latinicu u Centralnoj Evropi, koristilo se za srpsku latinicu
Windows-1251 – kodiranje za ćirilicu, koristilo se za srpsku ćirilicu
ISO-8859-2 – još jedno latinično kodiranje

Rezultat? Kada bi fajl kodiran u Windows-1251 otvorio ko ima podešen Windows-1250, umesto srpskog teksta pojavio bi se niz besmislenih znakova. Ovaj problem, poznat kao „mojibake" (japanski izraz za pogrešno prikazane znakove), bio je svakodnevna frustracija korisnika srpskog interneta 2000-ih godina.

Unicode i pretvaranje ćirilice u latinicu

Zahvaljujući Unicodeu, konverzija između srpske ćirilice i latinice može se obaviti programski, precizno i potpuno automatski. Svako ćiriličko slovo ima tačno odgovarajuće latiničko slovo, i ta veza je kodirana u standardima za transliteraciju.

Međutim, postoji jedna komplikacija: digrafovi. Srpska latinica ima slova koja odgovaraju jednom ćiriličnom slovu, ali se pišu kao dva latinična: lj, nj i dž. Ovo znači da algoritam za konverziju mora biti pažljiv da ne pretvori, recimo, „лј" u „l" + „j" svaki put odvojeno, nego u ligaturno „lj".

Naš konvertor ćirilice i latinice pravilno rešava sve ove slučajeve, uključujući i rubne slučajeve poput velikih slova (NJ, Nj, nj) i mešovitih reči.

Srpski na internetu danas

Danas su gotovo svi web sajtovi, aplikacije i operativni sistemi podrazumevano podešeni na UTF-8. To znači da srpski jezik – i ćirilica i latinica – funkcionišu besprekorno na svim modernim platformama. Ipak, nekoliko praktičnih problema ostaje:

URL-ovi sa ćirilicom – pretraživači kodiraju ćiriličke znakove u URL-u u tzv. percent-encoding format (npr. „а" postaje „%D0%B0"), što URL-ove čini nepreglednim
Email subjekti – stariji email klijenti ponekad loše prikazuju dijakritičke znakove
PDF fajlovi – ako font nije pravilno ugrađen, srpski tekst može biti nečitak
Legacy baze podataka – starije baze podataka često čuvaju srpski tekst u zastarelim kodiranjima

Fontovi i renderovanje srpskog teksta

Čak i kada je kodiranje ispravno, postoji još jedan sloj kompleksnosti: fontovi. Da bi se srpsko slovo prikazalo na ekranu, font koji koristite mora sadržati glifu (vizuelni prikaz) za to slovo. Srećom, sve moderne operativne sisteme dolaze sa fontovima koji podržavaju srpsku ćirilicu i latinicu.

Posebna situacija postoji kod nekih ćiriličnih slova koja u srpskom pismu izgledaju drugačije nego u ruskom ili bugarskom, iako imaju isti Unicode code point. Na primer, slova б, г, д, п i т imaju različite oblike u srpskoj i ruskoj tipografiji. Pravi srpski fontovi moraju voditi računa o ovim razlikama.

Zaključak

Unicode je nevidljiva infrastruktura koja omogućava da srpski jezik funkcioniše na modernom internetu. Bez ovog standarda, srpska ćirilica bi bila zarobljena u izolovanim sistemima, a konverzija između pisama bila bi daleko komplikovanija. Sledeći put kada bez problema pišete ćirilicom ili latinicom na telefonu ili računaru, znajte da iza toga stoji decenijama razvijani međunarodni standard koji je svet digitalnih komunikacija učinio zaista globalnim.

Probajte naš konvertor

Besplatno i bez registracije. Sve konverzije u vašem pretraživaču.

→ Koristi konvertor