Составители:
Рубрика:
15
На втором этапе производится последовательное распознавание от
дельных символов путем сравнения их с имеющимися эталонными об
разами, полученными ранее в процессе обучения системы. В результате
распознаваемому символу присваивается код того эталона, с которым
он совпадает наилучшим образом.
Все алгоритмы распознавания печатных символов можно разделить
на два класса: шрифтовые и безшрифтовые. Шрифтовые алгоритмы
используют априорную информацию о шрифте (тип, размер), которым
напечатаны буквы, т. е. программе OCR на этапе обучения необходимо
предъявить полноценную выборку текста, напечатанного данным шриф
том. Программа измеряет и анализирует различные признаки каждого
символа шрифта и заносит их в свою базу эталонных образов. По окон
чании этого процесса программа готова к распознаванию символов дан
ного конкретного шрифта.
Бесшрифтовые алгоритмы не имеют априорных знаний о шрифте
символов, поступающих к ним на вход, т. е. измеряют и анализируют
различные признаки, присущие печатным символам как таковым неза
висимо от типа и размера шрифта. В предельном случае для бесшрифто
вого алгоритма процесс обучения может отсутствовать и характеристи
ки символов задает человек. Более часто база эталонных образов созда
ется в процессе обучения программы на выборке реальных символов.
Сравнительные недостатки и достоинства обоих классов алгорит
мов распознавания текстовых символов приведены в табл. 1.
Результаты экспериментов показывают, что разные изображения
одного и того же печатного символа практически всегда отличаются
друг от друга, причем степень отличия зависит как от качества печат
ной продукции, так и от технических параметров сканера (число града
ций яркости, величина разрешения). В лабораторной работе эти отли
чия имитируются равномерным зашумлением, уровень которого мож
но регулировать.
Вероятность правильного распознавания символа зависит как от
выбранного метода распознавания, так и от степени различия эталон
ных символов. В лабораторной работе можно попиксельно формиро
вать растровые изображения эталонных символов с разной степенью
отличия.
В лабораторной работе не рассматривается первый этап распознава
ния, т. е. предполагается что бинаризация и сегментация уже проведе
ны и положение фрагментов изображения текста, в которых находятся
распознаваемые символы, известно. Таким образом, остается лишь за
дача последовательного распознавания изображений отдельных сим
волов, которая решается в работе тремя методами (по площади, по век
Страницы
- « первая
- ‹ предыдущая
- …
- 13
- 14
- 15
- 16
- 17
- …
- следующая ›
- последняя »