Основы компьютерной грамотности и информационно-коммуникационной компетентности. Ч. 1: Введение в информатику. Лядова Л.Н - 15 стр.

UptoLike

29
3.4.2. Представление текстовых данных
Текстовые данные рассматриваются как последователь-
ность отдельных символов, каждому из которых ставится в со-
ответствие двоичный код некоторого неотрицательного целого
числа.
Существуют разные способы кодирования символов.
Наиболее распространенной до последнего времени была
кодировка ASCII (American Standard Code for Information Inter-
change). При использовании этой кодировки для представления
каждого символа используется ровно 8 разрядов (один байт).
Таким образом, имеется возможность
кодирования 256 символов
(они получают коды от 0 до 255). С помощью такой кодировки
можно хранить только символы текста (без элементов формати-
рования или оформления).
Для отображения текстового документа с разбивкой его на
строки, с выравниванием и т.п. в него наряду с обычными сим-
волами, представляющими буквы, цифры, знаки препинания,
разделители, включаются
специальные (управляющие) символы
(например: «перевод строки», «возврат каретки», «табуляция»
и т.д.).
Соответствие символов и их кодов можно установить с по-
мощью специальной таблицы. В России используются элементы
таблицы альтернативной модифицированной кодировки, в пер-
вой части которой размещены символы ASCII (цифры, буквы
латинского алфавита, знаки препинания, управляющие симво-
лы), а во
второй половинебуквы русского алфавита, символы
псевдографики, которые позволяют включить в текст простей-
шие рисунки и таблицы, составленные из вертикальных и гори-
зонтальных линий).
ASCII позволяет закодировать только 256 символов. Это
неудобно, так как существуют языки, где символов больше. По-
этому разрабатываются другие коды (наборы символов). Пример
двухбайтовые наборы символов (DBCS – double-byte character
sets).
В этом двухбайтовом коде символы представляются одним
и двумя байтами, что неудобно для организации обработки та-
кой информации (для каждого символа сначала нужно опреде-
лить длину его кода, а уж потомсам символ).
30
Наиболее перспективным для использования является Uni-
code – стандарт, разработанный несколькими фирмами (сначала
– Apple и Xerox). В этом коде все
символы состоят из 16 битов.
Это позволяет кодировать свыше 65 тыс. символов (2
16
). В этом
коде для каждого алфавита определены свои кодовые позиции
(code points), т.е. все 65536 символов (кодов) разбиты на отдель-
ные группы (например: 0100-017F европейские латинские,
0180-01FF – расширенные латинские, 0250-02AF – стандартные
фонетические, 0370-03FF – греческий, 0400-04FF – кириллица
и т.д.). Около 29 000 кодовых позиций пока не заняты, но заре-
зервированы для использования. Таким образом, Unicode допус-
кает обмен данными
на разных языкахкаждому коду соответ-
ствует единственный символ, коды не пересекаются для разных
языков.
На Unicode целиком построена операционная система Win-
dows NT. У Windows 95/98 16-битное «наследство», поэтому вся
внутренняя работа в этой ОС построена на использовании ANSI-
строк (ANSI – American National Standards Institute), в которых
каждый символ записан в один байт.
ANSI-текст (или текст ASCII) – это текст без форматирова
-
ния (с ним работает, например, приложение «Блокнот» в Win-
dows 9х).
Если для представления информации в разных информаци-
онных системах используются разные кодировки, эти програм-
мы «не поймут» друг друга, поэтому может оказаться, что дан-
ные, подготовленные в одном месте, не смогут прочитать в
другом. Например, текст, введенный с помощью программы
«
Блокнот» в Windows, нельзя будет прочитать в MS-DOS.
3.4.3. Представление мультимедийной информации
Представление графической информации
Все форматы графических изображений можно разделить на
два основных типа: зависящие от разрешения и не зависящие от
разрешения. Для обозначения форматов изображений, завися-
щих от разрешения, используют термин растровая (или точеч-
ная) графика, а изображения, не зависящие от разрешения, назы-
вают векторными (или объектно-ориентированными).
                             29                                                                 30

          3.4.2. Представление текстовых данных                       Наиболее перспективным для использования является Uni-
     Текстовые данные рассматриваются как последователь-         code – стандарт, разработанный несколькими фирмами (сначала
ность отдельных символов, каждому из которых ставится в со-      – Apple и Xerox). В этом коде все символы состоят из 16 битов.
ответствие двоичный код некоторого неотрицательного целого       Это позволяет кодировать свыше 65 тыс. символов (216). В этом
числа.                                                           коде для каждого алфавита определены свои кодовые позиции
     Существуют разные способы кодирования символов.             (code points), т.е. все 65536 символов (кодов) разбиты на отдель-
     Наиболее распространенной до последнего времени была        ные группы (например: 0100-017F – европейские латинские,
кодировка ASCII (American Standard Code for Information Inter-   0180-01FF – расширенные латинские, 0250-02AF – стандартные
change). При использовании этой кодировки для представления      фонетические, 0370-03FF – греческий, 0400-04FF – кириллица
каждого символа используется ровно 8 разрядов (один байт).       и т.д.). Около 29 000 кодовых позиций пока не заняты, но заре-
Таким образом, имеется возможность кодирования 256 символов      зервированы для использования. Таким образом, Unicode допус-
(они получают коды от 0 до 255). С помощью такой кодировки       кает обмен данными на разных языках – каждому коду соответ-
можно хранить только символы текста (без элементов формати-      ствует единственный символ, коды не пересекаются для разных
рования или оформления).                                         языков.
     Для отображения текстового документа с разбивкой его на          На Unicode целиком построена операционная система Win-
строки, с выравниванием и т.п. в него наряду с обычными сим-     dows NT. У Windows 95/98 16-битное «наследство», поэтому вся
волами, представляющими буквы, цифры, знаки препинания,          внутренняя работа в этой ОС построена на использовании ANSI-
разделители, включаются специальные (управляющие) символы        строк (ANSI – American National Standards Institute), в которых
(например: «перевод строки», «возврат каретки», «табуляция»      каждый символ записан в один байт.
и т.д.).                                                              ANSI-текст (или текст ASCII) – это текст без форматирова-
     Соответствие символов и их кодов можно установить с по-     ния (с ним работает, например, приложение «Блокнот» в Win-
мощью специальной таблицы. В России используются элементы        dows 9х).
таблицы альтернативной модифицированной кодировки, в пер-             Если для представления информации в разных информаци-
вой части которой размещены символы ASCII (цифры, буквы          онных системах используются разные кодировки, эти програм-
латинского алфавита, знаки препинания, управляющие симво-        мы «не поймут» друг друга, поэтому может оказаться, что дан-
лы), а во второй половине – буквы русского алфавита, символы     ные, подготовленные в одном месте, не смогут прочитать в
псевдографики, которые позволяют включить в текст простей-       другом. Например, текст, введенный с помощью программы
шие рисунки и таблицы, составленные из вертикальных и гори-      «Блокнот» в Windows, нельзя будет прочитать в MS-DOS.
зонтальных линий).
     ASCII позволяет закодировать только 256 символов. Это           3.4.3. Представление мультимедийной информации
неудобно, так как существуют языки, где символов больше. По-                Представление графической информации
этому разрабатываются другие коды (наборы символов). Пример           Все форматы графических изображений можно разделить на
– двухбайтовые наборы символов (DBCS – double-byte character     два основных типа: зависящие от разрешения и не зависящие от
sets). В этом двухбайтовом коде символы представляются одним     разрешения. Для обозначения форматов изображений, завися-
и двумя байтами, что неудобно для организации обработки та-      щих от разрешения, используют термин растровая (или точеч-
кой информации (для каждого символа сначала нужно опреде-        ная) графика, а изображения, не зависящие от разрешения, назы-
лить длину его кода, а уж потом – сам символ).                   вают векторными (или объектно-ориентированными).