Библиотека knigago >> Компьютеры и Интернет >> Учебники и самоучители по компьютеру >> Современный скрапинг веб-сайтов с помощью Python


СЛУЧАЙНЫЙ КОММЕНТАРИЙ

# 940, книга: Время жить
автор: Ayliten

Ayliten Фэнтези: прочее "Время жить" - это фэнтезийная история, действие которой происходит в мире, разорванном на части войной. Главные герои книги - Эрия, молодая женщина, укрывающаяся в деревне от смертоносного проклятия, и Кайон, загадочный незнакомец, который может стать ее спасением или погибелью. Вместе они отправляются в опасное путешествие, чтобы найти лекарство от проклятия и восстановить баланс мира. Эрия - сильный и решительный персонаж, пытающийся выжить в мире,...

Райан Митчелл - Современный скрапинг веб-сайтов с помощью Python

Современный скрапинг веб-сайтов с помощью Python
Книга - Современный скрапинг веб-сайтов с помощью Python.  Райан Митчелл  - прочитать полностью в библиотеке КнигаГо
Название:
Современный скрапинг веб-сайтов с помощью Python
Райан Митчелл

Жанр:

Учебники и самоучители по компьютеру

Изадано в серии:

неизвестно

Издательство:

неизвестно

Год издания:

-

ISBN:

неизвестно

Отзывы:

Комментировать

Рейтинг:

Поделись книгой с друзьями!

Помощь сайту: донат на оплату сервера

Краткое содержание книги "Современный скрапинг веб-сайтов с помощью Python"


Читаем онлайн "Современный скрапинг веб-сайтов с помощью Python". [Страница - 89]

шрифтов. В тексте чередуется
чистый шрифт без засечек (на рисунке это символы 4 и M) и
шрифт, похожий на рукописный (символы m, C и 3).
• Высокий контраст между белым фоном и темными
символами.

Рис. 13.4. Пример текстового изображения, используемого по умолчанию в проекте Drupal
CAPTCHA

Тем не менее в этом изображении капчи есть несколько
помех, которые затрудняют чтение текста OCR-программами:
• используются не только буквы, но и цифры, что увеличивает
количество потенциально возможных символов;
• буквы со случайным наклоном легко читаются людьми, но
могут сбить с толку OCR-программы;


странноватый рукописный шрифт вызывает особые
трудности, а пара дополнительных линий в C и 3 и необычно
маленькая строчная буква m требуют дополнительного
обучения компьютера.

Запустив Tesseract для этого изображения с помощью
команды:

$ tesseract captchaExample.png output
получим следующий файл output.txt:
4N\,,,C --">

Оставить комментарий:


Ваш e-mail является приватным и не будет опубликован в комментарии.