ВУЗ:
Составители:
Основные элементы теории информации
Методическое пособие по информатике и ВТ
6
Символ У Ч Е Н Ь – С В Т , А М
Повторяемость,
m
i
2 2 6 3 3 2 1 1 2 1 2 1
Частота (веро-
ятность
p
i
)
13
1
13
1
13
3
26
3
26
3
13
1
26
1
26
1
13
1
26
1
13
1
26
1
Удельная энтропия (энтропия одного символа в сообщении) в битах на символ, равна:
∑∑
==
⋅⋅=
⋅=
k
i
i
ii
n
i
i
i
p
pm
p
pH
1
2
1
2
~
1
log
1
log
3535,37004,4
26
4
1155,3
26
6
1155,2
13
3
7004,3
13
5
26log
26
1
4
3
26
log
26
3
2
3
13
log
13
3
13log
13
1
5
2222
~
≈⋅+⋅+⋅+⋅≈
≈⋅⋅+⋅⋅+⋅+⋅⋅=H
Полная энтропия сообщения H=3,3535·26=87,19 бит.
Количество бит, необходимое для кодирования каждого символа одним байтом, составляет
Q=26·1 байт=26 байт=208 бит.
Избыточность кода E=1-87,19/208=0,58=58%
2.4 Единицы количества информации
1 бит (англ. binary digit – двоичная цифра) – основная единица количества информа-
ции. Бит имеет два значения (0 или 1, истина или ложь и т. п.) и позволяет закодировать одно
из двух состояний какого-либо объекта (например, наличие или отсутствие тока или напря-
жения в цепи, направление намагниченности и другое).
1 байт (Бт)=8 бит – имеет 2
8
=256 различных состояний, что позволяет закодировать
все латинские буквы (строчные и прописные), цифры, русские буквы, математические и спе-
циальные символы.
Практически можно считать, что 1 байт есть 1 символ текста.
Соответствие между символом и его цифровым кодом называется таблицей кодиров-
ки. Существует множество таблиц кодировки букв национальных алфавитов, например ки-
риллицы. В современных информационных системах часто используют двухбайтовую таб-
лицу Unicode, в которой каждый символ кодируется двумя байтами, что позволяет кодиро-
вать 2
16
=65536 символов. Такая таблица разработана одна и содержит символы всех нацио-
нальных алфавитов и множество специальных символов.
Например, на странице стандартного машинописного текста (60 строк по 64 символа)
может содержаться до 60·64=3840 символов, то есть количество информации до 3840 байт
(3,75 кбайт).
В двоичном виде байт представляет собой совокупность восьми двоичных разрядов
(0/1):
00000000
00000001
00000010
. . . . . . . .
11111110
11111111
Всего 256 различных комбинаций
8 двоичных разрядов
6 Основные элементы теории информации Символ У Ч Е Н Ь – С В Т , А М Повторяемость, 2 2 6 3 3 2 1 1 2 1 2 1 mi Частота (веро- 1 1 3 3 3 1 1 1 1 1 1 1 ятность pi) 13 13 13 26 26 13 26 26 13 26 13 26 Удельная энтропия (энтропия одного символа в сообщении) в битах на символ, равна: ~ n 1 k 1 H = ∑ pi ⋅ log 2 = ∑ mi ⋅ pi ⋅ log 2 i =1 pi i=1 pi ~ 1 3 13 3 26 1 H = 5⋅ ⋅ log 2 13 + ⋅ log 2 + 2 ⋅ ⋅ log 2 + 4 ⋅ ⋅ log 2 26 ≈ 13 13 3 26 3 26 5 3 6 4 ≈ ⋅ 3,7004 + ⋅ 2,1155 + ⋅ 3,1155 + ⋅ 4,7004 ≈ 3,3535 13 13 26 26 Полная энтропия сообщения H=3,3535·26=87,19 бит. Количество бит, необходимое для кодирования каждого символа одним байтом, составляет Q=26·1 байт=26 байт=208 бит. Избыточность кода E=1-87,19/208=0,58=58% 2.4 Единицы количества информации 1 бит (англ. binary digit – двоичная цифра) – основная единица количества информа- ции. Бит имеет два значения (0 или 1, истина или ложь и т. п.) и позволяет закодировать одно из двух состояний какого-либо объекта (например, наличие или отсутствие тока или напря- жения в цепи, направление намагниченности и другое). 1 байт (Бт)=8 бит – имеет 28=256 различных состояний, что позволяет закодировать все латинские буквы (строчные и прописные), цифры, русские буквы, математические и спе- циальные символы. Практически можно считать, что 1 байт есть 1 символ текста. Соответствие между символом и его цифровым кодом называется таблицей кодиров- ки. Существует множество таблиц кодировки букв национальных алфавитов, например ки- риллицы. В современных информационных системах часто используют двухбайтовую таб- лицу Unicode, в которой каждый символ кодируется двумя байтами, что позволяет кодиро- вать 216=65536 символов. Такая таблица разработана одна и содержит символы всех нацио- нальных алфавитов и множество специальных символов. Например, на странице стандартного машинописного текста (60 строк по 64 символа) может содержаться до 60·64=3840 символов, то есть количество информации до 3840 байт (3,75 кбайт). В двоичном виде байт представляет собой совокупность восьми двоичных разрядов (0/1): 00000000 00000001 00000010 Всего 256 различных комбинаций ........ 11111110 11111111 8 двоичных разрядов Методическое пособие по информатике и ВТ
Страницы
- « первая
- ‹ предыдущая
- …
- 4
- 5
- 6
- 7
- 8
- …
- следующая ›
- последняя »