Райан Митчелл - Современный скрапинг веб-сайтов с помощью Python
Название: | Современный скрапинг веб-сайтов с помощью Python | |
Автор: | Райан Митчелл | |
Жанр: | Учебники и самоучители по компьютеру | |
Изадано в серии: | неизвестно | |
Издательство: | неизвестно | |
Год издания: | - | |
ISBN: | неизвестно | |
Отзывы: | Комментировать | |
Рейтинг: | ||
Поделись книгой с друзьями! Помощь сайту: донат на оплату сервера |
Краткое содержание книги "Современный скрапинг веб-сайтов с помощью Python"
Читаем онлайн "Современный скрапинг веб-сайтов с помощью Python". [Страница - 89]
шрифтов. В тексте чередуется
чистый шрифт без засечек (на рисунке это символы 4 и M) и
шрифт, похожий на рукописный (символы m, C и 3).
• Высокий контраст между белым фоном и темными
символами.
Рис. 13.4. Пример текстового изображения, используемого по умолчанию в проекте Drupal
CAPTCHA
Тем не менее в этом изображении капчи есть несколько
помех, которые затрудняют чтение текста OCR-программами:
• используются не только буквы, но и цифры, что увеличивает
количество потенциально возможных символов;
• буквы со случайным наклоном легко читаются людьми, но
могут сбить с толку OCR-программы;
•
странноватый рукописный шрифт вызывает особые
трудности, а пара дополнительных линий в C и 3 и необычно
маленькая строчная буква m требуют дополнительного
обучения компьютера.
Запустив Tesseract для этого изображения с помощью
команды:
$ tesseract captchaExample.png output
получим следующий файл output.txt:
4N\,,,C --">
чистый шрифт без засечек (на рисунке это символы 4 и M) и
шрифт, похожий на рукописный (символы m, C и 3).
• Высокий контраст между белым фоном и темными
символами.
Рис. 13.4. Пример текстового изображения, используемого по умолчанию в проекте Drupal
CAPTCHA
Тем не менее в этом изображении капчи есть несколько
помех, которые затрудняют чтение текста OCR-программами:
• используются не только буквы, но и цифры, что увеличивает
количество потенциально возможных символов;
• буквы со случайным наклоном легко читаются людьми, но
могут сбить с толку OCR-программы;
•
странноватый рукописный шрифт вызывает особые
трудности, а пара дополнительных линий в C и 3 и необычно
маленькая строчная буква m требуют дополнительного
обучения компьютера.
Запустив Tesseract для этого изображения с помощью
команды:
$ tesseract captchaExample.png output
получим следующий файл output.txt:
4N\,,,C --">