Тест
Сергей ЩЕРБАКОВ
Для того чтобы отпечатанный на бумаге документ превратить в текстовый файл, который может быть обработан на компьютере, совсем не обязательно вводить его содержимое вручную с клавиатуры. Достаточно воспользоваться т.н. «системой распознавания символов» (OCR — Optical Character Recognition).
Системы эти хорошо известны. Планшетные сканеры, которые еще с трудом справлялись с оцифровкой фотопленок, уже комплектовались программами для превращения отпечатанных текстов в компьютерные.
Одним из формальных требований к файлу (т.е. к установкам сканера) для большинства таких программ было и остается разрешение. Как правило, его рекомендуется устанавливать равным 300 dpi. И хотя число это относится к разряду «магических» (мы не задумываемся о его происхождении и просто задаем эту величину в настройках сканера), но для этой статьи оно имеет немалое значение. Ведь если сфотографировать 10-мегапиксельной фотокамерой лист формата А4, то разрешение полученного файла будет чуть выше 300 dpi.
Фотокамера гораздо удобнее сканера — это очевидно. Ее можно взять с собой туда, где даже самый маленький планшетный сканер будет неуместен. Да и «сканировать» документы камерой проще и быстрее — листаем книгу и фотографируем страницу за страницей. Но готова ли современная фотокамера заменить сканер в OCR-системах?
Проверить это нам удалось в рамках совместного проекта компании Abbyy — известнейшего российского производителя программного обеспечения, и компании Pentar, являющейся эксклюзивным дистрибьютором фототехники Pentax в России. Их продукты — система распознавания документов ABBYY FineReader 9.0 Professional и фотокамера Pentax Optio A30 — поступили к нам на тестирование, которое и должно было ответить на поставленный вопрос.
Десятимегапиксельная компактная камера Pentax Optio A30 как нельзя лучше подходит для роли «сканера». Достаточное разрешение, оптическая стабилизация и возможность снимать на высоких значениях светочувствительности без существенной потери качества позволяют использовать ее даже в плохо освещенных библиотеках. Есть режимы цветной и черно-белой съемки документов с повышением контраста. В тех случаях, когда текст напечатан светлыми символами на темном фоне, можно воспользоваться режимом инвертирования.
Да и новая версия программы ABBYY FineReader 9.0, по заявлению ее создателей, существенно улучшена в том, что касается интеллектуальной обработки информации — автоматическом распознавании языков и полном воссоздании структуры документов. И, конечно же, улучшена работа с фотографиями обрабатываемых документов.
Наши испытания совместной работы фотокамеры и компьютерной программы проводились на двух задачах — оцифровка документа в «идеальных» условиях и в условиях оперативной работы.
Идеальные условия — это когда света достаточно даже для съемки с рук без штатива, есть возможность расположить документ строго перпендикулярно оптической оси объектива и не торопясь настроить фокус, контраст и баланс белого. В случае же оперативной работы, когда света мало, приходится использовать неяркую настольную лампу или вспышку, а документ располагать под сравнительно большим углом к объективу, чтобы избежать бликов и значительных перепадов яркости, получая при этом сильные перспективные искажения.
В качестве тестового документа использовалась отпечатанная на принтере страница А4 с таблицей, содержащей многострочные и однострочные ячейки, и текстовые блоки черным по белому и белым по черному. Использовались шрифты Times New Roman и Arial размерностью 10 и 12 кеглей, некоторые фразы выделялись курсивом. В русскоязычный текст были добавлены английские слова.
Съемка документа производилась в автоматическом и текстовых режимах камеры Pentax Optio A30. Отрабатываемые выдержки составляли 1/300–1/100 с (при ISO 100), к тому же наличие в камере оптического стабилизатора позволило не беспокоиться о смазе изображения. FineReader был настроен на автоматическую коррекцию перекоса и поворота, тщательную обработку документа, автоматическое распознавание таблиц с разделителями и работу с двуязычным документом (русский-английский).
При съемке в текстовом режиме с экспокоррекцией +1 EV ошибок распознавания практически не было. Программа не только верно определила слова, но и сохранила стили и шрифты, а также формат таблиц. Было всего несколько ошибок в абзаце, напечатанном белым по черному (причем не спасает и съемка в инвертированном режиме), а также в одном месте документа был неверно определен способ выравнивания строк. Но все эти ошибки правятся в текстовом редакторе быстрее, чем происходит обработка и распознавание документа (т.е. 3–5 мин на лист А4).
Без установленной экспокоррекции +1 EV или в обычном режиме съемки количество ошибок увеличивалось. Но это не грамматические, а ошибки форматирования — шрифт, его наклон и толщина. Но т.к. в программе предусмотрена возможность задания пользовательских стилей, то и с такими ошибками можно справиться сравнительно быстро — десяток щелчков мышки на страницу А4.
При неравномерном освещении документа настольной лампой качество распознавания нисколько не ухудшилось. Лишь при отключенном стабилизаторе возникал заметный смаз изображения (на выдержке 1/25 с), и в этом случае программа ошиблась, но только в форматировании — неверное определение шрифта и его размера. Повышение чувствительности в этом случае улучшает результат, но уже при ISO 800 вновь проявляются ошибки форматирования.
На основании испытаний в идеальных условиях можно сделать вывод, что камера Pentax Optio A30 и FineReader 9.0 хорошо справляются с оцифровкой и распознаванием документа. Имеющийся в камере режим съемки текста действительно обеспечивает гораздо лучший результат по сравнению с обычным автоматическим режимом.
Чтобы проверить, насколько велик запас по разрешению при съемке в идеальных условиях, испытания были проведены также при разрешении снимков 5, 3 и 1 Мпикс. В этом случае результат обработки снимка 5 Мпикс. отличался от 10 Мпикс. только неверным определением типа шрифта и его стиля примерно в половине абзацев, но снимок 3 Мпикс. оказался несколько лучше (ошибок вдвое меньше, чем у 5-мегапиксельного). И даже снимок 1 Мпикс. вполне хорош — ошибочно определены лишь форматы текстовых блоков, а у таблицы пропали границы-разделители, при этом сама таблица сохранилась.
Для испытаний в оперативных условиях тот же документ, освещенный настольной лампой, снимался под острым углом примерно в 45° относительно длинного края листа. На фотокамере был включен режим стабилизации, затвор отрабатывал выдержку 1/40 с. Т.к. при таком ракурсе может не хватить глубины резкости, съемка производилась в ручном режиме с выбором максимально закрытой для данной камеры диафрагмой f/9,7. (Как оказалось, глубины резкости достаточно и при открытой диафрагме, так что переходить в ручной режим нет смысла, а лучше работать в текстовом режиме камеры.) Итог вполне ожидаем — программа при распознавании документа не может корректно исправить перспективные искажения при таком остром ракурсе съемки. Из-за этого при правильном распознавании слов появляются многочисленные ошибки форматирования, что особенно проявляется в таблицах. Что ж, не следует выходить за разумные пределы при съемке…
И все же комплекта 10-мегапиксельной камеры со стабилизатором изображения Pentax Optio A30 и программы распознавания документов ABBYY FineReader 9.0 вполне достаточно, чтобы оперативно получать электронные документы из текстовых как в благоприятных, так и в очень неблагоприятных условиях. Аппарат успешно заменит сканер, а работать с ним гораздо удобнее. Конечно, хорошо бы установить камеру на штатив, выставить свет, экспозицию, фокус и, переворачивая страницы, нажимать кнопку спуска на пульте дистанционного управления (увы, в комплект не входит и приобретается отдельно).
Что касается программы FineReader 9.0, то единственное, что ей хочется пожелать, так это появления в будущих версиях более эффективного модуля автоматического исправления перспективных искажений на снимках. И тогда неблагоприятных условий для работы алгоритмов распознавания (наподобие съемки документов под острыми углами) просто не существовало бы.
F&V
Ориентировочная цена: 3750 руб. (программа); 8900 руб. (фотокамера)
Плюсы: портативная замена сканеру, специальные режимы съемки документов, улучшенные алгоритмы распознавания, невысокое количество ошибок при работе в «идеальных» условиях
Минусы: при работе в неидеальных условиях большинство ошибок связано с сохранением стилей исходного текста
Доп. информация: www.abbyy.ru, www.pentar.ru