пятница, 5 ноября 2010 г.

Tesseract. Распознавание текста.

Интерес к распознаванию текста появился, когда необходимо было разобрать примитивный captcha-код. Конечно можно было воспользоваться и более мелкими продуктами, но выбор пал на действительно стоящий проект. Распознавание текста с обучением, скачать можно здесь: http://code.google.com/p/tesseract-ocr/.

Сборка под Windows позволяет принимать для распознавания изображения в формате JPEG. Остальные сборки принимают только TIFF, поэтому предварительно необходимо использовать конвертацию из одного формата в другой, например, с помощью "convert".

Пример использования:


// качаем captch картинку с сайта
$ wget https://www.life.com.ua/sms/antibot.html
// переименуем
$ mv antibot.html img.jpg
// преобразуем в нужный формат
$ convert -compres none img.jpg img.tif
// разбираем (ожидая только цифры)
$ tesseract img.tif res nobatch digits
// смотрим результат
$ cat res.txt

Комментариев нет:

Отправить комментарий