Архитектура базовой ЭВМ. Кириллов В.В. - 140 стр.

UptoLike

ВУЗ:

Университет ИТМО | Санкт-Петербург

Составители:

Кириллов В.В.

Рубрика:

Автоматика и телемеханика. Вычислительная техника

137

Приложение Б

Кодировки символов

Как уже отмечалось в главе 1, компьютеры хранят всю информацию в виде

двоичных байтов, т. е. 8-битовых единиц, способных принимать значение от 0 до 255.

Для того, чтобы сохранить в памяти компьютера не числовую, а текстовую

информацию, необходимо определить, каким байтом или байтами будет кодироваться

каждый символ, который может встретиться в нашем тексте. Такое соответствие

между символами и кодирующими их байтами и называется кодировкой символов

(character set). Нетрудно понять, во-первых, что каждая кодировка разрабатывается для

конкретного человеческого языка (точнее, для конкретной письменности), и, во-

вторых, что для любого языка таких кодировок можно придумать сколько угодно. Зная

человеческую натуру, нетрудно догадаться и о том, что придумают их гораздо больше,

чем нужно. Естественно, так и случилось: наиболее развитая на сегодня библиотека

функций перекодировки ICU (International Components for Unicode) корпорации IBM

поддерживает более 170 различных кодировок.

Кодировки латиницы

Рассмотрим подробнее кодировки тех письменностей, с которыми чаще всего

сталкивается российский пользователь, т. е. латиницы и кириллицы. Для латиницы на

сегодня используют-ся две основные кодировки: ASCII и EBCDIC. ASCII (American

Standard Code for Information Interchange) — это семибитная кодовая таблица (коды

символов 00 - 7F или 0 - 127 десятичные), ставшая стандартом для малых и средних

компьютеров. В ней байты с шестнадцатеричными кодами 00 — 1F и 7F используются

для кодирования управляющих (неотображаемых) символов, а остальные кодируют

следующие символы:

Кодировки кириллицы

Кодировки «нелатинских» алфавитных письменностей устроены следующим

образом. Они кодируются восьмибитовой таблицей (1 байт = 1 символ), т. е. числами

00 - FF (0 - 255 десятичные) так, что младшая половина кодовой таблицы (коды 00 - 7F

или 0 - 127 десятичные) совпадает с ASCII, а старшая половина (коды 80 - FF или 128 -

255 десятичные) содержит национальную кодировку, т. е. русские буквы в русских

кодовых таблицах, турецкие в турецких и т. д. Такая организация национальных

кодовых таблиц позволяет правильно отображать и обрабатывать латинские буквы,

цифры и знаки препинания на любом компьютере, независимо от его системных

настроек. Именно так, в частности, устроены и русские кодовые таблицы, так что мы

можем в дальнейшем рассматривать только старшую их половину.

Заказать работу

Вы здесь

Архитектура базовой ЭВМ. Кириллов В.В. - 140 стр.

UptoLike

ВУЗ:

Кириллов В.В.

Автоматика и телемеханика. Вычислительная техника

Страницы