Распознавание текста с изображения

Теги: Стороннее ПО

В интернете куча приложения, которые можно использовать для распознавания текста с изображения. В данной статье речь пойдет про Tesseract.

Данное приложение можно установить, как на Linux, так и на Windows. Далее будет показан пример работы с данным приложение под Windows.

Скачиваем установочный файл http://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-setup-3.05.00dev.exe

Запускаем его. Когда будет предложено выбрать устанавливаемые компоненты оставляем по умолчанию. Ну вот и все теперь можно пользоваться данным приложением. Работать с ним нужно через консоль, запускаем её. 

cd /d "C:\Program Files (x86)\Tesseract-OCR"

tesseract.exe "c:\... путь к изображению.png" "e:\text" -l eng -psm 3

где "e:\text" - путь к файлу, где будет "распарсенный" текст,

-l eng - язык распознования (можно указать и rus, но для этого надо загрузить данные)

-psm 3 - параметр по умолчанию

Всю справочную информацию можно получить выполнив команду tesseract.exe --help

Чтобы дополнительно подключить другие языки распознаванию нужно с https://github.com/tesseract-ocr/langdata скачать требуемый файл *.traineddata и перенести его в папку C:\Program Files (x86)\Tesseract-OCR\tessdata

Пример:

Есть изображение с указанным текстом tesseract "путь к изображению.png" "e:\text" -l eng -psm 3 и в папке e:\ будет файл text.txt в котором будет текст Hello my friend

Нет комментариев

Добавить комментарий