ВУЗ:
Составители:
29
3.4.2. Представление текстовых данных
Текстовые данные рассматриваются как последователь-
ность отдельных символов, каждому из которых ставится в со-
ответствие двоичный код некоторого неотрицательного целого
числа.
Существуют разные способы кодирования символов.
Наиболее распространенной до последнего времени была
кодировка ASCII (American Standard Code for Information Inter-
change). При использовании этой кодировки для представления
каждого символа используется ровно 8 разрядов (один байт).
Таким образом, имеется возможность
кодирования 256 символов
(они получают коды от 0 до 255). С помощью такой кодировки
можно хранить только символы текста (без элементов формати-
рования или оформления).
Для отображения текстового документа с разбивкой его на
строки, с выравниванием и т.п. в него наряду с обычными сим-
волами, представляющими буквы, цифры, знаки препинания,
разделители, включаются
специальные (управляющие) символы
(например: «перевод строки», «возврат каретки», «табуляция»
и т.д.).
Соответствие символов и их кодов можно установить с по-
мощью специальной таблицы. В России используются элементы
таблицы альтернативной модифицированной кодировки, в пер-
вой части которой размещены символы ASCII (цифры, буквы
латинского алфавита, знаки препинания, управляющие симво-
лы), а во
второй половине – буквы русского алфавита, символы
псевдографики, которые позволяют включить в текст простей-
шие рисунки и таблицы, составленные из вертикальных и гори-
зонтальных линий).
ASCII позволяет закодировать только 256 символов. Это
неудобно, так как существуют языки, где символов больше. По-
этому разрабатываются другие коды (наборы символов). Пример
– двухбайтовые наборы символов (DBCS – double-byte character
sets).
В этом двухбайтовом коде символы представляются одним
и двумя байтами, что неудобно для организации обработки та-
кой информации (для каждого символа сначала нужно опреде-
лить длину его кода, а уж потом – сам символ).
30
Наиболее перспективным для использования является Uni-
code – стандарт, разработанный несколькими фирмами (сначала
– Apple и Xerox). В этом коде все
символы состоят из 16 битов.
Это позволяет кодировать свыше 65 тыс. символов (2
16
). В этом
коде для каждого алфавита определены свои кодовые позиции
(code points), т.е. все 65536 символов (кодов) разбиты на отдель-
ные группы (например: 0100-017F – европейские латинские,
0180-01FF – расширенные латинские, 0250-02AF – стандартные
фонетические, 0370-03FF – греческий, 0400-04FF – кириллица
и т.д.). Около 29 000 кодовых позиций пока не заняты, но заре-
зервированы для использования. Таким образом, Unicode допус-
кает обмен данными
на разных языках – каждому коду соответ-
ствует единственный символ, коды не пересекаются для разных
языков.
На Unicode целиком построена операционная система Win-
dows NT. У Windows 95/98 16-битное «наследство», поэтому вся
внутренняя работа в этой ОС построена на использовании ANSI-
строк (ANSI – American National Standards Institute), в которых
каждый символ записан в один байт.
ANSI-текст (или текст ASCII) – это текст без форматирова
-
ния (с ним работает, например, приложение «Блокнот» в Win-
dows 9х).
Если для представления информации в разных информаци-
онных системах используются разные кодировки, эти програм-
мы «не поймут» друг друга, поэтому может оказаться, что дан-
ные, подготовленные в одном месте, не смогут прочитать в
другом. Например, текст, введенный с помощью программы
«
Блокнот» в Windows, нельзя будет прочитать в MS-DOS.
3.4.3. Представление мультимедийной информации
Представление графической информации
Все форматы графических изображений можно разделить на
два основных типа: зависящие от разрешения и не зависящие от
разрешения. Для обозначения форматов изображений, завися-
щих от разрешения, используют термин растровая (или точеч-
ная) графика, а изображения, не зависящие от разрешения, назы-
вают векторными (или объектно-ориентированными).
29 30 3.4.2. Представление текстовых данных Наиболее перспективным для использования является Uni- Текстовые данные рассматриваются как последователь- code – стандарт, разработанный несколькими фирмами (сначала ность отдельных символов, каждому из которых ставится в со- – Apple и Xerox). В этом коде все символы состоят из 16 битов. ответствие двоичный код некоторого неотрицательного целого Это позволяет кодировать свыше 65 тыс. символов (216). В этом числа. коде для каждого алфавита определены свои кодовые позиции Существуют разные способы кодирования символов. (code points), т.е. все 65536 символов (кодов) разбиты на отдель- Наиболее распространенной до последнего времени была ные группы (например: 0100-017F – европейские латинские, кодировка ASCII (American Standard Code for Information Inter- 0180-01FF – расширенные латинские, 0250-02AF – стандартные change). При использовании этой кодировки для представления фонетические, 0370-03FF – греческий, 0400-04FF – кириллица каждого символа используется ровно 8 разрядов (один байт). и т.д.). Около 29 000 кодовых позиций пока не заняты, но заре- Таким образом, имеется возможность кодирования 256 символов зервированы для использования. Таким образом, Unicode допус- (они получают коды от 0 до 255). С помощью такой кодировки кает обмен данными на разных языках – каждому коду соответ- можно хранить только символы текста (без элементов формати- ствует единственный символ, коды не пересекаются для разных рования или оформления). языков. Для отображения текстового документа с разбивкой его на На Unicode целиком построена операционная система Win- строки, с выравниванием и т.п. в него наряду с обычными сим- dows NT. У Windows 95/98 16-битное «наследство», поэтому вся волами, представляющими буквы, цифры, знаки препинания, внутренняя работа в этой ОС построена на использовании ANSI- разделители, включаются специальные (управляющие) символы строк (ANSI – American National Standards Institute), в которых (например: «перевод строки», «возврат каретки», «табуляция» каждый символ записан в один байт. и т.д.). ANSI-текст (или текст ASCII) – это текст без форматирова- Соответствие символов и их кодов можно установить с по- ния (с ним работает, например, приложение «Блокнот» в Win- мощью специальной таблицы. В России используются элементы dows 9х). таблицы альтернативной модифицированной кодировки, в пер- Если для представления информации в разных информаци- вой части которой размещены символы ASCII (цифры, буквы онных системах используются разные кодировки, эти програм- латинского алфавита, знаки препинания, управляющие симво- мы «не поймут» друг друга, поэтому может оказаться, что дан- лы), а во второй половине – буквы русского алфавита, символы ные, подготовленные в одном месте, не смогут прочитать в псевдографики, которые позволяют включить в текст простей- другом. Например, текст, введенный с помощью программы шие рисунки и таблицы, составленные из вертикальных и гори- «Блокнот» в Windows, нельзя будет прочитать в MS-DOS. зонтальных линий). ASCII позволяет закодировать только 256 символов. Это 3.4.3. Представление мультимедийной информации неудобно, так как существуют языки, где символов больше. По- Представление графической информации этому разрабатываются другие коды (наборы символов). Пример Все форматы графических изображений можно разделить на – двухбайтовые наборы символов (DBCS – double-byte character два основных типа: зависящие от разрешения и не зависящие от sets). В этом двухбайтовом коде символы представляются одним разрешения. Для обозначения форматов изображений, завися- и двумя байтами, что неудобно для организации обработки та- щих от разрешения, используют термин растровая (или точеч- кой информации (для каждого символа сначала нужно опреде- ная) графика, а изображения, не зависящие от разрешения, назы- лить длину его кода, а уж потом – сам символ). вают векторными (или объектно-ориентированными).
Страницы
- « первая
- ‹ предыдущая
- …
- 13
- 14
- 15
- 16
- 17
- …
- следующая ›
- последняя »