Составители:
137
Приложение Б
Кодировки символов
Как уже отмечалось в главе 1, компьютеры хранят всю информацию в виде
двоичных байтов, т. е. 8-битовых единиц, способных принимать значение от 0 до 255.
Для того, чтобы сохранить в памяти компьютера не числовую, а текстовую
информацию, необходимо определить, каким байтом или байтами будет кодироваться
каждый символ, который может встретиться в нашем тексте. Такое соответствие
между символами и кодирующими их байтами и называется кодировкой символов
(character set). Нетрудно понять, во-первых, что каждая кодировка разрабатывается для
конкретного человеческого языка (точнее, для конкретной письменности), и, во-
вторых, что для любого языка таких кодировок можно придумать сколько угодно. Зная
человеческую натуру, нетрудно догадаться и о том, что придумают их гораздо больше,
чем нужно. Естественно, так и случилось: наиболее развитая на сегодня библиотека
функций перекодировки ICU (International Components for Unicode) корпорации IBM
поддерживает более 170 различных кодировок.
Кодировки латиницы
Рассмотрим подробнее кодировки тех письменностей, с которыми чаще всего
сталкивается российский пользователь, т. е. латиницы и кириллицы. Для латиницы на
сегодня используют-ся две основные кодировки: ASCII и EBCDIC. ASCII (American
Standard Code for Information Interchange) — это семибитная кодовая таблица (коды
символов 00 - 7F или 0 - 127 десятичные), ставшая стандартом для малых и средних
компьютеров. В ней байты с шестнадцатеричными кодами 00 — 1F и 7F используются
для кодирования управляющих (неотображаемых) символов, а остальные кодируют
следующие символы:
Кодировки кириллицы
Кодировки «нелатинских» алфавитных письменностей устроены следующим
образом. Они кодируются восьмибитовой таблицей (1 байт = 1 символ), т. е. числами
00 - FF (0 - 255 десятичные) так, что младшая половина кодовой таблицы (коды 00 - 7F
или 0 - 127 десятичные) совпадает с ASCII, а старшая половина (коды 80 - FF или 128 -
255 десятичные) содержит национальную кодировку, т. е. русские буквы в русских
кодовых таблицах, турецкие в турецких и т. д. Такая организация национальных
кодовых таблиц позволяет правильно отображать и обрабатывать латинские буквы,
цифры и знаки препинания на любом компьютере, независимо от его системных
настроек. Именно так, в частности, устроены и русские кодовые таблицы, так что мы
можем в дальнейшем рассматривать только старшую их половину.
Страницы
- « первая
- ‹ предыдущая
- …
- 138
- 139
- 140
- 141
- 142
- …
- следующая ›
- последняя »