Информатика и вычислительная техника. Шилов О.И. - 6 стр.

UptoLike

Составители: 

Основные элементы теории информации
Методическое пособие по информатике и ВТ
6
Символ У Ч Е Н ЬС В Т , А М
Повторяемость,
m
i
2 2 6 3 3 2 1 1 2 1 2 1
Частота (веро-
ятность
p
i
)
13
1
13
1
13
3
26
3
26
3
13
1
26
1
26
1
13
1
26
1
13
1
26
1
Удельная энтропия (энтропия одного символа в сообщении) в битах на символ, равна:
==
=
=
k
i
i
ii
n
i
i
i
p
pm
p
pH
1
2
1
2
~
1
log
1
log
3535,37004,4
26
4
1155,3
26
6
1155,2
13
3
7004,3
13
5
26log
26
1
4
3
26
log
26
3
2
3
13
log
13
3
13log
13
1
5
2222
~
+++
+++=H
Полная энтропия сообщения H=3,3535·26=87,19 бит.
Количество бит, необходимое для кодирования каждого символа одним байтом, составляет
Q=26·1 байт=26 байт=208 бит.
Избыточность кода E=1-87,19/208=0,58=58%
2.4 Единицы количества информации
1 бит (англ. binary digit – двоичная цифра) – основная единица количества информа-
ции. Бит имеет два значения (0 или 1, истина или ложь и т. п.) и позволяет закодировать одно
из двух состояний какого-либо объекта (например, наличие или отсутствие тока или напря-
жения в цепи, направление намагниченности и другое).
1 байт (Бт)=8 битимеет 2
8
=256 различных состояний, что позволяет закодировать
все латинские буквы (строчные и прописные), цифры, русские буквы, математические и спе-
циальные символы.
Практически можно считать, что 1 байт есть 1 символ текста.
Соответствие между символом и его цифровым кодом называется таблицей кодиров-
ки. Существует множество таблиц кодировки букв национальных алфавитов, например ки-
риллицы. В современных информационных системах часто используют двухбайтовую таб-
лицу Unicode, в которой каждый символ кодируется двумя байтами, что позволяет кодиро-
вать 2
16
=65536 символов. Такая таблица разработана одна и содержит символы всех нацио-
нальных алфавитов и множество специальных символов.
Например, на странице стандартного машинописного текста (60 строк по 64 символа)
может содержаться до 60·64=3840 символов, то есть количество информации до 3840 байт
(3,75 кбайт).
В двоичном виде байт представляет собой совокупность восьми двоичных разрядов
(0/1):
00000000
00000001
00000010
. . . . . . . .
11111110
11111111
Всего 256 различных комбинаций
8 двоичных разрядов
6                                 Основные элементы теории информации

   Символ               У       Ч          Е   Н    Ь    –    С    В    Т    ,    А    М
Повторяемость,
                        2       2          6   3    3    2    1    1    2    1    2    1
      mi
Частота (веро-           1      1       3      3    3     1   1    1     1   1     1   1
  ятность pi)           13     13      13      26   26   13   26   26   13   26   13   26

Удельная энтропия (энтропия одного символа в сообщении) в битах на символ, равна:
 ~    n
                  1 k                     1
H = ∑  pi ⋅ log 2  = ∑  mi ⋅ pi ⋅ log 2 
    i =1          pi  i=1                 pi 
 ~
       1              3       13   3        26      1
H = 5⋅   ⋅ log 2 13 + ⋅ log 2 + 2 ⋅ ⋅ log 2    + 4 ⋅ ⋅ log 2 26 ≈
      13             13        3   26       3       26
   5             3           6         4
≈ ⋅ 3,7004 + ⋅ 2,1155 + ⋅ 3,1155 + ⋅ 4,7004 ≈ 3,3535
  13           13            26        26
Полная энтропия сообщения H=3,3535·26=87,19 бит.
Количество бит, необходимое для кодирования каждого символа одним байтом, составляет
Q=26·1 байт=26 байт=208 бит.
Избыточность кода E=1-87,19/208=0,58=58%

2.4    Единицы количества информации

       1 бит (англ. binary digit – двоичная цифра) – основная единица количества информа-
ции. Бит имеет два значения (0 или 1, истина или ложь и т. п.) и позволяет закодировать одно
из двух состояний какого-либо объекта (например, наличие или отсутствие тока или напря-
жения в цепи, направление намагниченности и другое).
       1 байт (Бт)=8 бит – имеет 28=256 различных состояний, что позволяет закодировать
все латинские буквы (строчные и прописные), цифры, русские буквы, математические и спе-
циальные символы. Практически можно считать, что 1 байт есть 1 символ текста.
       Соответствие между символом и его цифровым кодом называется таблицей кодиров-
ки. Существует множество таблиц кодировки букв национальных алфавитов, например ки-
риллицы. В современных информационных системах часто используют двухбайтовую таб-
лицу Unicode, в которой каждый символ кодируется двумя байтами, что позволяет кодиро-
вать 216=65536 символов. Такая таблица разработана одна и содержит символы всех нацио-
нальных алфавитов и множество специальных символов.
       Например, на странице стандартного машинописного текста (60 строк по 64 символа)
может содержаться до 60·64=3840 символов, то есть количество информации до 3840 байт
(3,75 кбайт).
       В двоичном виде байт представляет собой совокупность восьми двоичных разрядов
(0/1):
00000000
00000001
00000010
               Всего 256 различных комбинаций
........
11111110
11111111

8 двоичных разрядов




Методическое пособие по информатике и ВТ