Распознавание текста на PHP (OCR)

Для чего это нужно?

OCR - расшифровывается как "Оптическое распознавание текста", чаще всего используется для распознавания текста на изображениях, в pdf файлах и подобном. Перед тем как я решил написать эту заметку, мне понадобилось обработать большое количество изображений на выявление в них водных знаков. В ручную конечно же, это было бы очень долго, поэтому пришлось обратиться к OCR-программе. Наиболее удобным для меня решением было использование php. Однако хорошего решения на чистом php не было найдено, но получилась вполне допустимая альтернатива - программа Gocr.
распознавание текста ocr

Использование Gocr - для распознавания текста

Gocr - это OCR программа, разработанная в соответствии с GNU Public License. Преобразует сканированный текст с изображений, обратно в текстовый формат. Сама по себе программа Gocr - запускается на сервере (в моём случае на freebsd), однако вызов и присвоение параметров я делал через php.

Скачать и узнать подробнее о программе, можно на сайте jocr.sourceforge.net. Для использования программы средствами php, Вы должны иметь права на использование команды "shell_exec".

Пример использования (не забудьте использовать абсолютные пути!):
$output = shell_exec('/usr/local/bin/gocr -i /usr/local/www/site.ru/docs/images/img.jpg');
Вот и весь код, в переменной output - будет весь распознанный текст, советую обрабатывать его регулярными выражениями, т.к. в выводе часто находится словесный мусор.

Комментарии и отзывы к материалу

17.04.2013

ка пишет:
ак

18.04.2013

Григорий (MakeFuture) пишет:
Ваше сообщение - OCR не распознает :)

29.07.2013

Игорь пишет:
Спасибо за статью!

Было бы хорошо, если бы Вы добавили пример регулярок для какого-нибудь результата распознавания.

06.08.2013

Григорий (MakeFuture) пишет:
Тут чаще индивидуально делается, зависит от текста на изображении (одно слово, предложение или цифры, а также язык). А так, посмотреть пробный результат и для начала отсеивать лишние символы в начале и в конце строки.
У меня была цель узнать есть ли на изображение водный знак, он был однотипный и мне лишь оставалось запустить поиск на содержание нужного слова в результате.

25.09.2013

Дед пишет:
Просто заметка, ничего не дающая...

07.11.2013

Андрей пишет:
Спасибо за информацию. Сначала было нацелился на http://phpocr.sourceforge.net/, но там в основном упор на цифры, а тут более серьёзный подход.

23.02.2015

Николай пишет:
Здравствуйте, очень нужна ваша помощь... я никак не могу понять как работать с gocr... вроде и не тупой, и php немного знаю...
В общем ответьте мне пожалуйста на page-master(пёс =)ukr.net у меня только пару вопросов о gocr и его использовании на php (сервер локальный, денвер)

05.02.2016

Артем пишет:
Де пример. нормальный!!!!

Отправить комментарий

Как зовут?

Сообщение