Унікод

Уніко́д (англ.: Unicode вымаўляецца як Юніко́д; скарачэнне ад Універса́льны код) — стандарт кадзіравання сімвалаў, які дазваляе адлюстраваць літары і знакі амаль усіх пісьмовых моў.^[1]

Стандарт быў прапанован у 1991 годзе некамерцыйнай арганізацыяй «Кансорцыум Унікоду» (англ.: Unicode Consortium, Unicode Inc.).^[2]^[3] Выкарыстанне гэтага стандарту дазваляе надаць коды вельмі вялікай колькасці сімвалаў з розных сістэм пісьма: у дакументах з выкарыстаннем Унікоду могуць разам выкарыстоўвацца кітайскія іерогліфы, матэматычныя сімвалы, літары грэчаскага алфавіта, лацінкі і кірыліцы, а патрэба ў пераключэнні кодавых старонак адпадае.^[4]

Стандарт складаецца з двух асноўных раздзелаў: універсальны набор сімвалаў (англ.: UCS, universal character set) і сямейства кадзіровак (па-англійску: UTF, Unicode transformation format). Універсальны набор сімвалаў вызначае дакладную адпаведнасць сімвалаў кодам — элементам кодавай прасторы, якія ёсць неадмоўнымі цэлымі лікамі. Сямейства кадзіровак вызначае машынны запіс паслядоўнасці кодаў UCS.

Коды ў стандарце Унікод раздзелены на некалькі частак. Частка з кодамі ад U+0000 да U+007F утрымлівае сімвалы з набору ASCII з адпаведнымі кодамі. Далей размешчаны часткі сімвалаў розных пісьмовых сістэм, пунктуацыйныя знакі і тэхнічныя сімвалы. Частка кодаў зарэзервавана для выкарыстання ў будучыні.^[5] Пад сімвалы кірыліцы выдзелены часткі знакаў з кодамі ад U+0400 да U+052F, ад U+2DE0 да U+2DFF і ад U+A640 да U+A69F.^[6]

Назва па-беларуску

Назва "Юнікод" уяўляе сабой варварызм: слова (у фанетычнай форме) механічна перанесена з англійскай мовы ў беларускую.

Назва ж "Унікод" больш адпавядае ўнутранай логіцы беларускай мовы, бо:

мае яснае паходжанне (этымалогію) ад "Універсальны код";
адразу ўліваецца ў сямейства роднасных слоў, звязаных са ўсеагульнасцю і ўніверсальнасцю (унісон, універсітэт, універсал і г.д.).

Кодавая прастора

Хоць кадзіроўкі UTF-8 і UTF-32 дазваляюць кадаваць да 2³¹ (2 147 483 648) кодавых пазіцый, было прынята рашэнне выкарыстоўваць толькі 1 112 064 для сумяшчальнасці з UTF-16. Зрэшты, нават гэтага досыць — сёння (у версіі 6.0) выкарыстоўваецца менш за 110 000 кодавых пазіцый (109 242 графічных і 273 іншых сімвалаў).

Кодавая прастора падзелена на 17 плоскасцей па 2¹⁶=65 536 сімвалаў. Нулявая плоскасць называецца асноўнай: у ёй размешчаны сімвалы найбольш ужывальных пісьменнасцей. Першая плоскасць выкарыстоўваецца пераважна для гістарычных алфавітаў, другая — для рэдка ўжывальных іерогліфаў кітайскага пісьма, трэцяя зарэзервавана для архаічных кітайскіх іерогліфаў.^[7] Плоскасці 15 і 16 выдзелены для выкарыстання ў прыватных выпадках.^[5]

Для абазначэння сімвалаў Унікоду выкарыстоўваецца запіс на ўзор U+xxxx (для кодаў 0…FFFF), U+xxxxx (для кодаў 10000…FFFFF), ці U+xxxxxx (для кодаў 100000…10FFFF), дзе кожны x — шаснаццатковая лічба. Напрыклад, сімвал «я» (U+044F) мае код 044F₁₆ = 1103₁₀.

Сімвалы-мадыфікатары

Графічныя сімвалы ва Ўнікодзе падзяляюцца на падоўжаныя і непадоўжаныя. Непадоўжаныя сімвалы пры запісе не займаюць месца ў радку. Да іх адносяць, у прыватнасці, знакі націску і іншую дыякрытыку. Як падоўжаныя, так і непадоўжаныя сімвалы маюць уласныя коды. Падоўжаныя коды яшчэ называюць асноўнымі (англ.: base characters), а непадоўжаныя — мадыфікатарамі (англ.: combining characters); прычым апошнія не могуць ужывацца асобна. Напрыклад, сімвал «á» можна закадзіраваць як паслядоўнасць асноўнага сімвала «a» (U+0061) і мадыфікатара « ́» (U+0301), а можна і як маналітны сімвал «á» (U+00C1).

Асаблівы тып мадыфікатараў — селектары варыянту напісання (англ.: variation selectors). Яны ўплываюць толькі на тыя сімвалы, для якіх такія варыянты вызначаны. У версіі 5.0 стандарту варыянты напісання вызначаны для шэрагу матэматычных сімвалаў, для сімвалаў традыцыйнага мангольскага алфавіта і для сімвалаў мангольскага квадратнага пісьма.

Зноскі

↑ The Unicode® Standard: A Technical Introduction (англ.)
↑ History of Unicode Release and Publication Dates (англ.)
↑ The Unicode Consortium (англ.)
↑ Foreword (англ.)
↑ ^а ^б General Structure (англ.)
↑ European Alphabetic Scripts (англ.)
↑ Roadmap to the TIP (англ.)

Спасылкі

Афіцыйны сайт Кансорцыума Унікоду (англ.)

[techin-1] The Unicode® Standard: A Technical Introduction (англ.)

[history-2] History of Unicode Release and Publication Dates (англ.)

[consort-3] The Unicode Consortium (англ.)

[foreword-4] Foreword (англ.)

[genstruct-5] а ^б General Structure (англ.)

[euroscript-6] European Alphabetic Scripts (англ.)

[archchinese-7] Roadmap to the TIP (англ.)

[1]

[2]

[3]

[4]

[5]

[6]

[7]