Распознавание текста на изображениях. Tesseract презентация

Содержание

2. Использованные статьи Документация Tesseract:https://github.com/tesseract-ocr/docs Вейвлет-преобразование: http://www2.isye.gatech.edu/~brani/wp/kidsA.pdf Приложение вейвлет-преобразования: http://www.sciencedirect.com/science/article/pii/S0262885605000107 http://link.springer.com/article/10.1007/s13042-011-0049-5
3. 1985 – Hewlett-Packard, C, проприетарность 1985 – Hewlett-Packard, C, проприетарность 1996
4. Pipeline
5. Анализ макета страницы
11. Поиск блобов
12. Поиск строк
13. Поиск слов: случай моноширинного шрифта
14. Поиск слов: случай пропорционального шрифта
15. Поиск слов: случай пропорционального шрифта
16. Поиск слов: случай пропорционального шрифта
17. Разрезание и объединение символов
18. Статическая классификация символов
19. И что, это работает?
22. Как сделать, чтобы заработало? Текст упорядочен в один или несколько столбцов
23. Использованные пакеты Tesseract для Python: pytesseract Обработка изображений: scikit-image Вейвлеты: PyWavelets
37. Скачать презентацию

Презентации» Информатика» Распознавание текста на изображениях. Tesseract

Использованные статьи
Документация Tesseract:https://github.com/tesseract-ocr/docs
Вейвлет-преобразование: http://www2.isye.gatech.edu/~brani/wp/kidsA.pdf
Приложение вейвлет-преобразования:
http://www.sciencedirect.com/science/article/pii/S0262885605000107
http://link.springer.com/article/10.1007/s13042-011-0049-5

1985 – Hewlett-Packard, C, проприетарность
1985 – Hewlett-Packard, C, проприетарность
1996

Поиск слов: случай пропорционального шрифта

Как сделать, чтобы заработало?
Текст упорядочен в один или несколько столбцов

Использованные пакеты
Tesseract для Python: pytesseract
Обработка изображений: scikit-image
Вейвлеты: PyWavelets

Слайды и текст этой презентации

Слайд 1

Описание слайда:

Распознавание текста на изображениях. Tesseract.

Слайд 2

Описание слайда:

Использованные статьи Документация Tesseract:https://github.com/tesseract-ocr/docs Вейвлет-преобразование: http://www2.isye.gatech.edu/~brani/wp/kidsA.pdf Приложение вейвлет-преобразования: http://www.sciencedirect.com/science/article/pii/S0262885605000107 http://link.springer.com/article/10.1007/s13042-011-0049-5

Слайд 3

Описание слайда:

1985 – Hewlett-Packard, C, проприетарность 1985 – Hewlett-Packard, C, проприетарность 1996 – порт на Windows 1998 – переход от C к C++ 2005 – открытый исходный код 2006 – Google

Слайд 4

Описание слайда:

Pipeline

Слайд 5

Описание слайда:

Анализ макета страницы

Слайд 6

Описание слайда:

Слайд 7

Описание слайда:

Слайд 8

Описание слайда:

Слайд 9

Описание слайда:

Слайд 10

Описание слайда:

Слайд 11

Описание слайда:

Поиск блобов

Слайд 12

Описание слайда:

Поиск строк

Слайд 13

Описание слайда:

Поиск слов: случай моноширинного шрифта

Слайд 14

Описание слайда:

Поиск слов: случай пропорционального шрифта

Слайд 15

Описание слайда:

Поиск слов: случай пропорционального шрифта

Слайд 16

Описание слайда:

Поиск слов: случай пропорционального шрифта

Слайд 17

Описание слайда:

Разрезание и объединение символов

Слайд 18

Описание слайда:

Статическая классификация символов

Слайд 19

Описание слайда:

И что, это работает?

Слайд 20

Описание слайда:

Слайд 21

Описание слайда:

Слайд 22

Описание слайда:

Как сделать, чтобы заработало? Текст упорядочен в один или несколько столбцов Нет посторонних изображений Нет сильных искажений и шума Высота символов >= 20 пикселей Бинарное изображение на входе (иначе тессеракт сам его бинаризует)

Слайд 23

Описание слайда:

Использованные пакеты Tesseract для Python: pytesseract Обработка изображений: scikit-image Вейвлеты: PyWavelets Нейронные сети: PyBrain

Слайд 24

Описание слайда:

Слайд 25

Описание слайда:

Слайд 26

Описание слайда:

Слайд 27

Описание слайда:

Слайд 28