пятница, 20 февраля 2015 г.

Таблицы Кодировок.

American standard code for information interchange(ASCII).

ASCII (англ. American standard code for information interchange) — название таблицы (кодировки, набора), в которой некоторым распространённым печатным и не печатным символам сопоставлены числовые коды. Таблица была разработана и стандартизована в США в 1963 году. Название «ASCII» в американском варианте английского языка произносится как [э́ски]; в Великобритании чаще произносят [а́ски]; по-русски — так же: [а́ски] или [аски́].
Таблица ASCII определяет коды для символов:
  • десятичных цифр;
  • латинского алфавита;
  • национального алфавита;
  • знаков препинания;
  • управляющих символов.   

История.

Изначально (1963 год) ASСII была разработана для кодирования символов, коды которых помещались в 7 бит (128 символов; 27=128). Со временем кодировка была расширена до 256 символов (28=256); коды первых 128-и символов не изменились. ASCII стала восприниматься как половина 8-и битной кодировки, а «расширенной ASCII» называли ASCII с задействованным 8-м битом.

Национальные варианты ASCII.

Стандарт ISO 646 (ECMA-6) предусматривает возможность размещения национальных символов на месте символов «@», «[», «\», «]», «^», «`», «{», «|», «}», «~». В дополнение к этому, на месте «#» может быть размещён «£», а на месте «$» — «¤». Такая система хорошо подходит для европейских языков, где нужны лишь несколько дополнительных символов. Вариант ASCII без национальных символов называется US-ASCII или «international reference version».
Для некоторых языков с нелатинской письменностью (русского, греческого, арабского, иврита) существовали более радикальные модификации ASCII. Одним из вариантов был отказ от строчных латинских букв — на их месте размещались национальные символы (для русского и греческого — только заглавные буквы). Другой вариант — переключение между US-ASCII и национальным вариантом «на лету» с помощью символов SO (англ. shift out) и SI (англ. shift in) — в этом случае в национальном варианте можно полностью устранить латинские буквы и занять всё пространство под свои символы. См. также КОИ-7.
Впоследствии оказалось удобнее использовать 8-и битные кодировки , в которых нижнюю половину кодовой таблицы (0—127) занимают символы US-ASCII, а верхнюю (128—255) — дополнительные символы, включая набор национальных символов. Таким образом, верхняя половина таблицы ASCII до повсеместного внедрения Юникода активно использовалась для представления локализированных символов, букв местного языка. Отсутствие единого стандарта размещения кириллических символов в таблице ASCII доставляло множество проблем с кодировками. Другие языки с нелатинской письменностью тоже страдали из-за наличия нескольких разных кодировок.
Первые 128 символов стандарта Юникод совпадают с соответствующими символами US-ASCII.

UNICODE.



Юнико́д (чаще всего) или Унико́д (англ. Unicode) — стандарт кодирования символов, позволяющий представить знаки почти всех письменных языков.
Стандарт предложен в 1991 году некоммерческой организацией «Консорциум Юникода» (англ. Unicode Consortium, Unicode Inc.). Применение этого стандарта позволяет закодировать очень большое число символов из разных письменностей: в документах Unicode могут соседствовать китайские иероглифы, математические символы, буквы греческого алфавита, латиницы и кириллицы, при этом становится ненужным переключение кодовых страниц.
Стандарт состоит из двух основных разделов: универсальный набор символов (англ. UCS, universal character set) и семейство кодировок (англ. UTF, Unicode transformation format). Универсальный набор символов задаёт однозначное соответствие символов кодам — элементам кодового пространства, представляющим неотрицательные целые числа. Семейство кодировок определяет машинное представление последовательности кодов UCS.
Коды в стандарте Юникод разделены на несколько областей. Область с кодами от U+0000 до U+007F содержит символы набора ASCII с соответствующими кодами. Далее расположены области знаков различных письменностей, знаки пунктуации и технические символы. Часть кодов зарезервирована для использования в будуще. Под символы кириллицы выделены области знаков с кодами от U+0400 до U+052F, от U+2DE0 до U+2DFF, от U+A640 до U+A64.

Версии Юникода:

Работа по доработке стандарта продолжается. Новые версии выпускаются по мере изменения и пополнения таблиц символов. Параллельно выпускаются новые документы ISO/IEC 10646.

Первый стандарт выпущен в 1991 году, последний — в 2014, следующий ожидается летом 2015 года[12]. Стандарты версий 1.0 — 5.0 публиковались, как книги, и имеют ISBN.

Номер версии стандарта составлен из трёх цифр (например, "4.0.1"). Третью цифру меняют при внесении в стандарт небольших изменений, не добавляющих новых символов.

Система кодирования


Универсальная система кодирования (Юникод) представляет собой набор графических символов и способ их кодирования для компьютерной обработки текстовых данных.
Графические символы — это символы, имеющие видимое изображение. Графическим символам противопоставляются управляющие символы и символы форматирования.
Графические символы включают в себя следующие группы:
  • буквы, содержащиеся хотя бы в одном из обслуживаемых алфавитов;
  • цифры;
  • знаки пунктуации;
  • специальные знаки (математические, технические, идеограммы и пр.);
  • разделители.
Юникод — это система для линейного представления текста. Символы, имеющие дополнительные над- или подстрочные элементы, могут быть представлены в виде построенной по определённым правилам последовательности кодов (составной вариант, composite character) или в виде единого символа (монолитный вариант, precomposed character). На данный момент (2014) считается, что все буквы крупных письменностей в Юникод внесены, и если символ доступен в составном варианте, дублировать его в монолитном виде не нужно.



Комментариев нет:

Отправить комментарий