Распознавание текста. Перевести картинку и пдф в ворд. Лучшие методы

Опубликовано: 10.09.2017

видео Распознавание текста. Перевести картинку и пдф в ворд. Лучшие методы

Readiris - программа для распознания текста

RiDoc - простая утилита для распознавания текста, которая дает возможнсть распознать отсканированный документ в текстовый формат. Такая утилита должна быть всегда под рукой - очень часто требуется распознать простой отсканированный документ в текстовый формат.



Преимуществом RiDoc является то, что программа может как сканировать документ, т.е. создавать графический вариант бумажного документа, так и сразу открывать графический файл (bmp, png, jpeg, TIFF (в т.ч. многостраничный)) содержащий текст для распознавания.

По сути, программа RiDoc является универсальным средством для сканирования документов и распознавания текста.

распознавание текста CuneiForm

Для распознавания текста в программе RiDoc используется OCR Tesseract - свободно распространяемый продукт от компании Google. В настоящее время OCR Tesseract поддерживает огромное количество языков для распознавания, в том числе и русский язык (он уже включен в установочную программу RiDoc).

Для добавления нового языка распознавания нужно выполнить следующие шаги:

- Скачиваем архив нового языка со страницы загрузки языков распознавания OCR Tesseract.

- Из скаченного архива распаковываем файл нового языка с раширением *.traineddata в папку c:\Program Files (x86)\Riman\RiDoc\tessdata\ (для Windows Vista, Win 7) или c:\Program Files\Riman\RiDoc\tessdata\ (для Win XP).

- Перезапускаем RiDoc. Выбираем новый язык для распознавания текста в списке языков (закладка OCR).

- Выполняем распознавание текста.

Распознавание текста возможно только по выбранному языку. Т.е. не получится распознать полноценно текст, к примеру, содержащий английские и русские буквы - распознавание текста пройдет только по одному (выбранному) языку.

rss