- /
- /
Описание модуля "Распознавание текста (Tesseract OCR)"
Данный модуль предназначен для распознавания текста при сканировании из карточки документа, поставляется только с коммерческими версиями СЭД. Для его работы в составе системы FossDoc используется стороннее программное обеспечение Tesseract, которое распространяется его разработчиками свободно по открытой лицензии. Для использования данного модуля требуется, чтобы он был включен в серверную лицензию FossDoc.
Далее будет рассмотрено:
Распознавание текста
Команды для распознавания текста находятся в меню кнопки Сканирование карточки документа. Для распознавания можно сначала отсканировать некоторый документ (или приложить уже отсканированный документ на закладку файлы)
![меню Сканирование](../images/ru/tesseract/menu-scan.png)
Допустим вы получили тем или иным образом некоторые отсканированные документы. Нажмите Сканирование/Распознать и выберите файлы, для которых необходимо распознать текст:
![распознавания текста](../images/ru/tesseract/recognize.png)
Если вы установите галочку "Сохранить в один файл", система объединит тексты из выбранных файлов в один файл. В результате будет создан файл в двух форматах - PDF и TXT. По умолчанию название файлов - "Document":
![результат распознавания текста](../images/ru/tesseract/result.png)
Аналогичным образом вы можете выбрать пункт Сканировать и распознать, чтобы сразу выполнить сканирование и распознавание отсканированного текста. После сканирования появится диалог:
![диалог распознавания после сканирования](../images/ru/tesseract/save.png)
Выберите Завершить и распознать и нажмите ОК. Документ с распознанным текстом будет создан. Установите галочку Сохранить в один файл для объединения нескольких документов в один.
Дополнительные настройки модуля
Система по умолчанию настроена на распознавание текста на 3 языках: украинский, английский и русский. Если вы уверены, что для вашей работы требуется только один язык для распознавания, можете выбрать в настройках только его, - это несколько сократит время работы программы распознавания. Для того, чтобы выбрать один язык, перейдите в программе администрирования в Библиотеки документов/Сервер на закладку Библиотека сервера, нажмите "Настройка":
![выбор языка для распознавания](../images/ru/tesseract/settings.png)
Выберите нужный язык и нажмите ОК.