Русская Википедия:ISO 8859-1
ISO/IEC 8859-1 (также известная как ISO 8859-1 и Latin-1) — кодовая страница, предназначенная для западноевропейских языков; она базируется на символьном наборе популярных в прошлом терминалов VT220. Кодовые позиции 0—31 (0x0—0x1F) и 127—159 (0x7F—0x9F) не определены. По образцу ISO 8859-1 сделаны все остальные кодировки серии ISO 8859.
ISO-8859-1 — кодировка, зарегистрированная IANA в 1992 г. В отличие от ISO/IEC 8859-1, кодовые позиции 0—31 и 127—159 здесь заполнены управляющими символами (большинство из которых используется весьма редко). В HTML ISO-8859-1 является кодировкой по умолчанию (в XHTML, однако, кодировкой по умолчанию является UTF-8).
IANA разрешает использовать следующие варианты названия: ISO_8859-1:1987, ISO_8859-1, ISO-8859-1, iso-ir-100, sISOLatin1, latin1, l1, IBM819, CP819.
В Юникоде первые 256 кодовых позиций совпадают с ISO-8859-1.
В Microsoft Windows для западноевропейских языков используется кодировка Windows-1252, которая отличается от ISO-8859-1 тем, что позиции 128—159 (0x80—0x9F) здесь заняты разными полезными типографскими символами. Большинство браузеров не различает ISO-8859-1 и Windows-1252 — фактически, и в том, и в другом случае они отображают текст как Windows-1252.
Такая путаница между этими двумя кодировками привела к тому, что многие программы, генерирующие файлы HTML, ошибочно обозначали символы их кодами из Windows−1252 вместо кодов Юникода (исходя из того, что номер символа в ISO-8859-1 равен его номеру в Юникоде): например, тире (—) обозначалось —
вместо правильного —
, многоточие обозначалось …
вместо правильного …
и т. д.; из-за распространённости этого явления современные браузеры продолжают показывать, например, —
как тире, хотя на самом деле —
— это управляющий символ «end of guarded area», применение которого в HTML бессмысленно.
В проекте стандарта HTML 5 предписывается показывать ISO-8859-1 как Windows-1252.[1]
Таблицы
Нижняя часть (0—127) таблиц кодировки не показана, поскольку полностью соответствует обычному ASCII. Числа под буквами обозначают шестнадцатеричный код буквы в Юникоде.
ISO-8859-1
Интересно расположение символов × и ÷ посреди букв: первоначально там планировалось разместить лигатуру Œœ, но в конечном итоге было решено, что она не нужна, и освободившиеся два места были заполнены небуквенными символами.[2]
Windows−1252
В первоначальной версии этой кодировки отсутствовали символы: € (0x80), ˆ (0x88), ˜ (0x98), Ž (0x8E), ž (0x9E).
Примечания
Ссылки
- Официальная таблица кодировки ISO 8859-1 на сайте www.unicode.org
- Официальная таблица кодировки Windows-1252 на сайте www.unicode.org
Шаблон:ISO-8859 Шаблон:WinCP Шаблон:Кодировки символов