Русская Википедия:Кириллица в Юникоде
Начиная с версии Юникода 9.0 для кириллицы выделено пять блоков:
название | диапазон кодов (hex) | версия Юникода | |
---|---|---|---|
Cyrillic | Кириллица | 0400—04FF | 1.1 |
Cyrillic Supplement | Дополнение к кириллице | 0500—052F | 3.2 |
Cyrillic Extended-A | Расширенная кириллица — A | 2DE0—2DFF | 5.1 |
Cyrillic Extended-B | Расширенная кириллица — B | A640—A69F | 5.1 |
Cyrillic Extended-C | Расширенная кириллица — C | 1C80—1C8F | 9.0 |
Эти 4 раздела занимают в кодовом пространстве Юникода 448 позиций, из которых 22 пока свободны (не определены). Кроме того, в нижеприведённую большую таблицу включены 5 символов, не входящих в эти 4 раздела (см. «Разное»).
Символы можно разделить на 7 групп:
- U+0400 — U+045F — буквы славянских алфавитов из кодировки ISO 8859-5, но перемещённые вверх на 864 позиции (36016).
- U+0460 — U+0489 — исторические буквы и символы из старославянского (церковнославянского) алфавита.
- U+048A — U+052F — дополнительные буквы для разных языков, использующих кириллицу.
- U+1C80 — U+1C8F — старые формы представления кириллических букв.
- U+2DE0 — U+2DFF — церковнославянские буквотитлы.
- U+A640 — U+A67F — дополнительные буквы и символы для церковнославянского языка.
- U+A680 — U+A69F — дополнительные буквы для старой абхазской орфографии.
Проблемы и особенности использования
- Не регламентируется использование одновременно современных и исторических начертаний в одном тексте. К примеру, несмотря на присутствующую возможность указания варианта начертания символов (variation selectors), для кириллических символов используемые варианты стандартом не определены.
- Не реализована возможность использования надстрочных символов, простирающихся над несколькими буквами, что требуется в церковнославянском языке.
- Существует неоднозначность по отношению к кодированию некоторых букв: например, «Й» может быть закодирована как единый символ U+0419 либо как комбинация «И» U+0418 и диакритического знака U+0306. Для приведения таких символов текста к единообразию стандарт определяет формы нормализации текста.
- Для части букв некоторых языков с алфавитом на основе кириллицы не существует отдельных монолитных знаков, только диакритические комбинации, например, р̆, а̄.
- Для указания ударения следует использовать акут (U+0301) после соответствующего символа (ы́ э́ ю́ я́).
- Наличие разных начертаний одних и тех же букв в разных языках иногда приводит к некорректному виду текста: например русский и сербский языки используют разное начертание курсивных букв, например п и т в сербском выглядят как и и ш.
Компактная таблица
Вся кириллица в Юникоде (версия 15.0.0) | ||||||||||||||||
Шаблон:Nbsp | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | A | B | C | D | E | F |
U+040x | Ѐ | Ё | Ђ | Ѓ | Є | Ѕ | І | Ї | Ј | Љ | Њ | Ћ | Ќ | Ѝ | Ў | Џ |
U+041x | А | Б | В | Г | Д | Е | Ж | З | И | Й | К | Л | М | Н | О | П |
U+042x | Р | С | Т | У | Ф | Х | Ц | Ч | Ш | Щ | Ъ | Ы | Ь | Э | Ю | Я |
U+043x | а | б | в | г | д | е | ж | з | и | й | к | л | м | н | о | п |
U+044x | р | с | т | у | ф | х | ц | ч | ш | щ | ъ | ы | ь | э | ю | я |
U+045x | ѐ | ё | ђ | ѓ | є | ѕ | і | ї | ј | љ | њ | ћ | ќ | ѝ | ў | џ |
U+046x | Ѡ | ѡ | Ѣ | ѣ | Ѥ | ѥ | Ѧ | ѧ | Ѩ | ѩ | Ѫ | ѫ | Ѭ | ѭ | Ѯ | ѯ |
U+047x | Ѱ | ѱ | Ѳ | ѳ | Ѵ | ѵ | Ѷ | ѷ | Ѹ | ѹ | Ѻ | ѻ | Ѽ | ѽ | Ѿ | ѿ |
U+048x | Ҁ | ҁ | ҂ | ҃ | ҄ | ҅ | ҆ | ҇ | ҈ | ҉ | Ҋ | ҋ | Ҍ | ҍ | Ҏ | ҏ |
U+049x | Ґ | ґ | Ғ | ғ | Ҕ | ҕ | Җ | җ | Ҙ | ҙ | Қ | қ | Ҝ | ҝ | Ҟ | ҟ |
U+04Ax | Ҡ | ҡ | Ң | ң | Ҥ | ҥ | Ҧ | ҧ | Ҩ | ҩ | Ҫ | ҫ | Ҭ | ҭ | Ү | ү |
U+04Bx | Ұ | ұ | Ҳ | ҳ | Ҵ | ҵ | Ҷ | ҷ | Ҹ | ҹ | Һ | һ | Ҽ | ҽ | Ҿ | ҿ |
U+04Cx | Ӏ | Ӂ | ӂ | Ӄ | ӄ | Ӆ | ӆ | Ӈ | ӈ | Ӊ | ӊ | Ӌ | ӌ | Ӎ | ӎ | ӏ |
U+04Dx | Ӑ | ӑ | Ӓ | ӓ | Ӕ | ӕ | Ӗ | ӗ | Ә | ә | Ӛ | ӛ | Ӝ | ӝ | Ӟ | ӟ |
U+04Ex | Ӡ | ӡ | Ӣ | ӣ | Ӥ | ӥ | Ӧ | ӧ | Ө | ө | Ӫ | ӫ | Ӭ | ӭ | Ӯ | ӯ |
U+04Fx | Ӱ | ӱ | Ӳ | ӳ | Ӵ | ӵ | Ӷ | ӷ | Ӹ | ӹ | Ӻ | ӻ | Ӽ | ӽ | Ӿ | ӿ |
U+050x | Ԁ | ԁ | Ԃ | ԃ | Ԅ | ԅ | Ԇ | ԇ | Ԉ | ԉ | Ԋ | ԋ | Ԍ | ԍ | Ԏ | ԏ |
U+051x | Ԑ | ԑ | Ԓ | ԓ | Ԕ | ԕ | Ԗ | ԗ | Ԙ | ԙ | Ԛ | ԛ | Ԝ | ԝ | Ԟ | ԟ |
U+052x | Ԡ | ԡ | Ԣ | ԣ | Ԥ | ԥ | Ԧ | ԧ | Ԩ | ԩ | Ԫ | ԫ | Ԭ | ԭ | Ԯ | ԯ |
U+1C8x | ᲀ | ᲁ | ᲂ | ᲃ | ᲄ | ᲅ | ᲆ | ᲇ | ᲈ | |||||||
U+1D2x | ᴫ | |||||||||||||||
U+1D7x | ᵸ | |||||||||||||||
U+20Dx | ⃝ | |||||||||||||||
U+2DEx | ⷠ | ⷡ | ⷢ | ⷣ | ⷤ | ⷥ | ⷦ | ⷧ | ⷨ | ⷩ | ⷪ | ⷫ | ⷬ | ⷭ | ⷮ | ⷯ |
U+2DFx | ⷰ | ⷱ | ⷲ | ⷳ | ⷴ | ⷵ | ⷶ | ⷷ | ⷸ | ⷹ | ⷺ | ⷻ | ⷼ | ⷽ | ⷾ | ⷿ |
U+A64x | Ꙁ | ꙁ | Ꙃ | ꙃ | Ꙅ | ꙅ | Ꙇ | ꙇ | Ꙉ | ꙉ | Ꙋ | ꙋ | Ꙍ | ꙍ | Ꙏ | ꙏ |
U+A65x | Ꙑ | ꙑ | Ꙓ | ꙓ | Ꙕ | ꙕ | Ꙗ | ꙗ | Ꙙ | ꙙ | Ꙛ | ꙛ | Ꙝ | ꙝ | Ꙟ | ꙟ |
U+A66x | Ꙡ | ꙡ | Ꙣ | ꙣ | Ꙥ | ꙥ | Ꙧ | ꙧ | Ꙩ | ꙩ | Ꙫ | ꙫ | Ꙭ | ꙭ | ꙮ | ꙯ |
U+A67x | ꙰ | ꙱ | ꙲ | ꙳ | ꙴ | ꙵ | ꙶ | ꙷ | ꙸ | ꙹ | ꙺ | ꙻ | ꙼ | ꙽ | ꙾ | ꙿ |
U+A68x | Ꚁ | ꚁ | Ꚃ | ꚃ | Ꚅ | ꚅ | Ꚇ | ꚇ | Ꚉ | ꚉ | Ꚋ | ꚋ | Ꚍ | ꚍ | Ꚏ | ꚏ |
U+A69x | Ꚑ | ꚑ | Ꚓ | ꚓ | Ꚕ | ꚕ | Ꚗ | ꚗ | Ꚙ | ꚙ | Ꚛ | ꚛ | ꚜ | ꚝ | ꚞ | ꚟ |
U+FE2x | ︮ | ︯ | ||||||||||||||
U+1E03x | 𞀰 | 𞀱 | 𞀲 | 𞀳 | 𞀴 | 𞀵 | 𞀶 | 𞀷 | 𞀸 | 𞀹 | 𞀺 | 𞀻 | 𞀼 | 𞀽 | 𞀾 | 𞀿 |
U+1E04x | 𞁀 | 𞁁 | 𞁂 | 𞁃 | 𞁄 | 𞁅 | 𞁆 | 𞁇 | 𞁈 | 𞁉 | 𞁊 | 𞁋 | 𞁌 | 𞁍 | 𞁎 | 𞁏 |
U+1E05x | 𞁐 | 𞁑 | 𞁒 | 𞁓 | 𞁔 | 𞁕 | 𞁖 | 𞁗 | 𞁘 | 𞁙 | 𞁚 | 𞁛 | 𞁜 | 𞁝 | 𞁞 | 𞁟 |
U+1E06x | 𞁠 | 𞁡 | 𞁢 | 𞁣 | 𞁤 | 𞁥 | 𞁦 | 𞁧 | 𞁨 | 𞁩 | 𞁪 | 𞁫 | 𞁬 | 𞁭 | 𞂏 | |
Серые клетки обозначают зарезервированные кодовые позиции, голубые — позиции некириллических символов. |
Символы кириллицы в версии Юникода 9.0
Шаблон:Спецсимволы В нижеприведённой таблице строчные буквы упорядочены в порядке возрастания их юникодовских номеров (за исключением Ё, поставленной на своём алфавитном месте, и украинской Ґ, перемещённой в конец блока дополнительных знаков для современных славянских языков). Прописные буквы стоят непосредственно перед соответствующими строчными буквами.
Колонка «КР» означает «каноническое разложение» — если ячейка в этом столбце не пуста, то символ можно представить в виде сочетания базового символа и диакритического знака.
Колонка «ВЮ» означает версию Юникода, в которой впервые появился данный символ (самой ранней версией считается 1.1, а не 1.0)[1].
Английские названия символов, написанные заглавными буквами (колонка «название») являются частью стандарта Юникода. Названия на других языках, включая русский и прочие языки на кириллической основе, в стандарте Юникода не прописаны. При этом для многих символов официальных названий на русском языке нет, а некоторые другие символы имеют разные названия в разных кириллических языках (например, «Ъ» в русском алфавите называется «Твёрдый знак», в церковнославянском — «Еръ», а в болгарском — «Ер голям»).
Всего в таблицу включено 429 символов.
См. также
Примечания
Ссылки
- Таблицы кодировки стандарта Юникод (версия 11.0)Шаблон:Ref-size
- Техническая спецификация 6.2 стандарта Юникод