Kada kucate poruku na telefonu ili pišete email na srpskom, iza kulisa se odvijaju procesi koji su daleko složeniji nego što izgledaju. Svako slovo koje vidite na ekranu – i svako ćiriličko i svako latiničko – postoji zahvaljujući međunarodnom standardu koji se zove Unicode. Bez njega, srpski jezik na internetu ne bi funkcionisao onako kako funkcioniše danas.
Šta je Unicode i zašto je nastao?
Pre Unicodea, svaki računarski sistem koristio je sopstveni standard za kodiranje teksta. Američki ASCII standard pokrirao je 128 znakova – dovoljno za engleski jezik, ali daleko premalo za jezike sa dijakritičkim znacima, a posebno nedovoljno za pisma poput ćirilice, grčkog, arapskog ili kineskog. Rezultat je bila haotična situacija u kojoj je tekst napisan na jednom sistemu izgledao kao niz besmislenih znakova na drugom.
Unicode je nastao kao rešenje: jedinstveni standard koji dodeljuje svaki mogući znak u svakom pismu na svetu jedinstvenoj numeričkoj vrednosti, tzv. code pointu. Prva verzija Unicodea objavljena je 1991. godine. Danas Unicode pokriva više od 149.000 znakova iz 161 pisma i sistema znakova.
Srpska ćirilica u Unicodeu
Srpska ćirilica ima svoj definisani blok u Unicodeu, koji pokriva osnovna slova i ona specifična za srpski jezik. Evo nekoliko primera code pointova za srpska ćirilična slova:
- А – U+0410 (Cyrillic Capital Letter A)
- Б – U+0411 (Cyrillic Capital Letter Be)
- Ј – U+0408 (Cyrillic Capital Letter Je) – specifično srpsko slovo
- Љ – U+0409 (Cyrillic Capital Letter Lje) – specifično srpsko slovo
- Њ – U+040A (Cyrillic Capital Letter Nje) – specifično srpsko slovo
- Ћ – U+040B (Cyrillic Capital Letter Tshe) – specifično srpsko slovo
- Џ – U+040F (Cyrillic Capital Letter Dzhe) – specifično srpsko slovo
Srpska latinica koristi standardna latinična slova sa dijakritičkim znacima, koji su takođe deo Unicodea: č (U+010D), š (U+0161), ž (U+017E), đ (U+0111) i ć (U+0107).
UTF-8: kako se Unicode prenosi na internetu
Unicode definiše koje numeričke vrednosti odgovaraju kojim znacima, ali ne definiše kako se te vrednosti čuvaju u fajlovima ili prenose kroz mrežu. Za to postoje različita kodiranja, a najrasprostranjenije na internetu je UTF-8.
UTF-8 je pametno dizajniran: standardna ASCII slova (a-z, 0-9 i sl.) zauzimaju samo jedan bajt, dok znaci van ASCII opsega, uključujući ćirilicu, zauzimaju dva ili više bajtova. To znači da je UTF-8 kompaktan za engleski tekst, a istovremeno podržava sve svetske jezike.
Za srpski tekst u UTF-8 kodiranju, jedno ćirilično slovo zauzima 2 bajta. To je zašto fajl sa srpskim ćiriličnim tekstom može biti nešto veći od fajla sa istim tekstom na latinici – ali razlika je zanemarljiva u praksi.
Problemi sa starим kodiranjima
Pre masovnog usvajanja UTF-8, srpski tekst na internetu bio je pravi haos. Koristila su se razna nestandardna kodiranja:
- Windows-1250 – kodiranje za latinicu u Centralnoj Evropi, koristilo se za srpsku latinicu
- Windows-1251 – kodiranje za ćirilicu, koristilo se za srpsku ćirilicu
- ISO-8859-2 – još jedno latinično kodiranje
Rezultat? Kada bi fajl kodiran u Windows-1251 otvorio ko ima podešen Windows-1250, umesto srpskog teksta pojavio bi se niz besmislenih znakova. Ovaj problem, poznat kao „mojibake" (japanski izraz za pogrešno prikazane znakove), bio je svakodnevna frustracija korisnika srpskog interneta 2000-ih godina.
Unicode i pretvaranje ćirilice u latinicu
Zahvaljujući Unicodeu, konverzija između srpske ćirilice i latinice može se obaviti programski, precizno i potpuno automatski. Svako ćiriličko slovo ima tačno odgovarajuće latiničko slovo, i ta veza je kodirana u standardima za transliteraciju.
Međutim, postoji jedna komplikacija: digrafovi. Srpska latinica ima slova koja odgovaraju jednom ćiriličnom slovu, ali se pišu kao dva latinična: lj, nj i dž. Ovo znači da algoritam za konverziju mora biti pažljiv da ne pretvori, recimo, „лј" u „l" + „j" svaki put odvojeno, nego u ligaturno „lj".
Naš konvertor ćirilice i latinice pravilno rešava sve ove slučajeve, uključujući i rubne slučajeve poput velikih slova (NJ, Nj, nj) i mešovitih reči.
Srpski na internetu danas
Danas su gotovo svi web sajtovi, aplikacije i operativni sistemi podrazumevano podešeni na UTF-8. To znači da srpski jezik – i ćirilica i latinica – funkcionišu besprekorno na svim modernim platformama. Ipak, nekoliko praktičnih problema ostaje:
- URL-ovi sa ćirilicom – pretraživači kodiraju ćiriličke znakove u URL-u u tzv. percent-encoding format (npr. „а" postaje „%D0%B0"), što URL-ove čini nepreglednim
- Email subjekti – stariji email klijenti ponekad loše prikazuju dijakritičke znakove
- PDF fajlovi – ako font nije pravilno ugrađen, srpski tekst može biti nečitak
- Legacy baze podataka – starije baze podataka često čuvaju srpski tekst u zastarelim kodiranjima
Fontovi i renderovanje srpskog teksta
Čak i kada je kodiranje ispravno, postoji još jedan sloj kompleksnosti: fontovi. Da bi se srpsko slovo prikazalo na ekranu, font koji koristite mora sadržati glifu (vizuelni prikaz) za to slovo. Srećom, sve moderne operativne sisteme dolaze sa fontovima koji podržavaju srpsku ćirilicu i latinicu.
Posebna situacija postoji kod nekih ćiriličnih slova koja u srpskom pismu izgledaju drugačije nego u ruskom ili bugarskom, iako imaju isti Unicode code point. Na primer, slova б, г, д, п i т imaju različite oblike u srpskoj i ruskoj tipografiji. Pravi srpski fontovi moraju voditi računa o ovim razlikama.
Zaključak
Unicode je nevidljiva infrastruktura koja omogućava da srpski jezik funkcioniše na modernom internetu. Bez ovog standarda, srpska ćirilica bi bila zarobljena u izolovanim sistemima, a konverzija između pisama bila bi daleko komplikovanija. Sledeći put kada bez problema pišete ćirilicom ili latinicom na telefonu ili računaru, znajte da iza toga stoji decenijama razvijani međunarodni standard koji je svet digitalnih komunikacija učinio zaista globalnim.
Probajte naš konvertor
Besplatno i bez registracije. Sve konverzije u vašem pretraživaču.
→ Koristi konvertor