Распознавание текста на PHP (OCR)
Для чего это нужно?
OCR - расшифровывается как "Оптическое распознавание текста", чаще всего используется для распознавания текста на изображениях, в pdf файлах и подобном. Перед тем как я решил написать эту заметку, мне понадобилось обработать большое количество изображений на выявление в них водных знаков. В ручную конечно же, это было бы очень долго, поэтому пришлось обратиться к OCR-программе. Наиболее удобным для меня решением было использование php. Однако хорошего решения на чистом php не было найдено, но получилась вполне допустимая альтернатива - программа Gocr.
Использование Gocr - для распознавания текста
Gocr - это OCR программа, разработанная в соответствии с GNU Public License. Преобразует сканированный текст с изображений, обратно в текстовый формат. Сама по себе программа Gocr - запускается на сервере (в моём случае на freebsd), однако вызов и присвоение параметров я делал через php.Скачать и узнать подробнее о программе, можно на сайте jocr.sourceforge.net. Для использования программы средствами php, Вы должны иметь права на использование команды "shell_exec".
Пример использования (не забудьте использовать абсолютные пути!):
$output = shell_exec('/usr/local/bin/gocr -i /usr/local/www/site.ru/docs/images/img.jpg');
Вот и весь код, в переменной output - будет весь распознанный текст, советую обрабатывать его регулярными выражениями, т.к. в выводе часто находится словесный мусор.
Похожие материалы
Комментарии и отзывы к материалу
17.04.2013
ка пишет:ак
18.04.2013
Григорий (MakeFuture) пишет:Ваше сообщение - OCR не распознает :)
29.07.2013
Игорь пишет:Спасибо за статью!
Было бы хорошо, если бы Вы добавили пример регулярок для какого-нибудь результата распознавания.
Было бы хорошо, если бы Вы добавили пример регулярок для какого-нибудь результата распознавания.
06.08.2013
Григорий (MakeFuture) пишет:Тут чаще индивидуально делается, зависит от текста на изображении (одно слово, предложение или цифры, а также язык). А так, посмотреть пробный результат и для начала отсеивать лишние символы в начале и в конце строки.
У меня была цель узнать есть ли на изображение водный знак, он был однотипный и мне лишь оставалось запустить поиск на содержание нужного слова в результате.
У меня была цель узнать есть ли на изображение водный знак, он был однотипный и мне лишь оставалось запустить поиск на содержание нужного слова в результате.
25.09.2013
Дед пишет:Просто заметка, ничего не дающая...
07.11.2013
Андрей пишет:Спасибо за информацию. Сначала было нацелился на http://phpocr.sourceforge.net/, но там в основном упор на цифры, а тут более серьёзный подход.
23.02.2015
Николай пишет:Здравствуйте, очень нужна ваша помощь... я никак не могу понять как работать с gocr... вроде и не тупой, и php немного знаю...
В общем ответьте мне пожалуйста на page-master(пёс =)ukr.net у меня только пару вопросов о gocr и его использовании на php (сервер локальный, денвер)
В общем ответьте мне пожалуйста на page-master(пёс =)ukr.net у меня только пару вопросов о gocr и его использовании на php (сервер локальный, денвер)
05.02.2016
Артем пишет:Де пример. нормальный!!!!
Отправить комментарий
Как зовут?
Сообщение