Райан Митчелл - Современный скрапинг веб-сайтов с помощью Python
Название: | Современный скрапинг веб-сайтов с помощью Python | |
Автор: | Райан Митчелл | |
Жанр: | Учебники и самоучители по компьютеру | |
Изадано в серии: | неизвестно | |
Издательство: | неизвестно | |
Год издания: | - | |
ISBN: | неизвестно | |
Отзывы: | Комментировать | |
Рейтинг: | ||
Поделись книгой с друзьями! Помощь сайту: донат на оплату сервера |
Краткое содержание книги "Современный скрапинг веб-сайтов с помощью Python"
Читаем онлайн "Современный скрапинг веб-сайтов с помощью Python". Главная страница.
- 1
- 2
- 3
- . . .
- последняя (89) »
Райан Митчелл
Современный скрапинг веб-сайтов с помощью Python. 2-е межд.
издание
2021
Научный редактор С. Бычковский
Переводчик Е. Сандицкая
Литературный редактор Н. Хлебина
Художник В. Мостипан
Корректоры Н. Гринчик, Е. Павлович, Е. Рафалюк-Бузовская
Райан Митчелл
Современный скрапинг веб-сайтов с помощью Python. 2-е
межд. издание . — СПб.: Питер, 2021.
ISBN 978-5-4461-1693-5
© ООО Издательство "Питер", 2021
Все права защищены. Никакая часть данной книги не может
быть воспроизведена в какой бы то ни было форме без
письменного разрешения владельцев авторских прав.
Введение
Если
человек
не
слишком
хорошо
знаком
с
программированием, оно ему может показаться чем-то вроде
волшебства. Но если программирование — волшебство, то вебскрапинг — это очень сильное колдунство: написав простую
автоматизированную программу, можно отправлять запросы
на веб-серверы, запрашивать с них данные, а затем
анализировать их и извлекать необходимую информацию.
Работая инженером-программистом, я обнаружила, что
веб-скрапинг
—
одна
из
немногих
областей
программирования, восхищающая как разработчиков, так и
обычных людей. Умение легко написать простой бот, который
бы собирал данные и передавал их через терминал или
сохранял в базе данных, не перестает повергать в некий трепет
от осознания своих возможностей, независимо от того, сколько
раз вам приходилось делать это раньше.
К сожалению, общаясь с другими программистами на тему
веб-скрапинга, я обнаружила, что не все хорошо понимают
суть метода. Одни считают его не вполне законным (и они
ошибаются), другие не умеют обрабатывать страницы,
содержащие много кода JavaScript или требующие регистрации.
Многие не знают, как начать крупный проект по скрапингу или
даже где искать нужные данные. Книга призвана ответить на
многие из этих вопросов, развеять ошибочные представления о
веб-скрапинге, а также предоставить исчерпывающее
руководство по решению его наиболее распространенных
задач.
Веб-скрапинг — обширная и быстро развивающаяся
область, поэтому я постаралась представить здесь не только
общие принципы, но и конкретные примеры, охватывающие
практически все способы сбора данных, с которыми вы,
вероятно, столкнетесь. В книге приводятся примеры кода,
демонстрирующие эти принципы и позволяющие проверить их
на практике. Сами примеры можно использовать и изменять
как с указанием авторства, так и без него (хотя благодарности
всегда приветствуются). Все примеры кода доступны на GitHub
(http://www.pythonscraping.com/code/),
где
их
можно
просмотреть и скачать.
Что такое веб-скрапинг
Автоматизированный сбор данных в Интернете почти так же
стар, как и сам Интернет. Несмотря на то что термин «вебскрапинг» не является новым, еще несколько лет назад эту
методику чаще называли анализом интерфейсных данных,
интеллектуальным анализом данных, сбором веб-данных и т.п.
Похоже, что наконец-то все пришли к единому мнению и
предпочли называть это веб-скрапингом, поэтому я буду
использовать данный термин на протяжении всей книги, хотя
специализированные программы, которые просматривают
несколько веб-страниц, я буду называть веб-краулерами, а
программы, предназначенные для собственно веб-скрапинга,
— ботами.
Теоретически веб-скрапинг — это сбор данных с
использованием любых средств, за исключением программ,
взаимодействующих с API. Обычно для этого пишут
автоматизированную программу, которая обращается к вебсерверу, запрашивает данные (как правило, в формате HTML
или в других форматах веб-страниц), а затем анализирует эти
данные и извлекает оттуда полезную информацию.
На практике веб-скрапинг включает в себя широкий спектр
методов и технологий программирования, таких как анализ
данных, синтаксический анализ естественных языков и
информационная безопасность. Именно потому, что эта
область столь широка, в части I данной книги будут
рассмотрены фундаментальные основы веб-скрапинга и вебкраулинга, а в части II — более углубленные темы. Я
рекомендую внимательно изучить первую часть и погружаться
в более специализированные разделы второй части по мере
необходимости.
Почему это называется веб-скрапингом
Получать доступ к Интернету только через браузер — значит
упускать массу возможностей. Браузеры (кроме --">
Современный скрапинг веб-сайтов с помощью Python. 2-е межд.
издание
2021
Научный редактор С. Бычковский
Переводчик Е. Сандицкая
Литературный редактор Н. Хлебина
Художник В. Мостипан
Корректоры Н. Гринчик, Е. Павлович, Е. Рафалюк-Бузовская
Райан Митчелл
Современный скрапинг веб-сайтов с помощью Python. 2-е
межд. издание . — СПб.: Питер, 2021.
ISBN 978-5-4461-1693-5
© ООО Издательство "Питер", 2021
Все права защищены. Никакая часть данной книги не может
быть воспроизведена в какой бы то ни было форме без
письменного разрешения владельцев авторских прав.
Введение
Если
человек
не
слишком
хорошо
знаком
с
программированием, оно ему может показаться чем-то вроде
волшебства. Но если программирование — волшебство, то вебскрапинг — это очень сильное колдунство: написав простую
автоматизированную программу, можно отправлять запросы
на веб-серверы, запрашивать с них данные, а затем
анализировать их и извлекать необходимую информацию.
Работая инженером-программистом, я обнаружила, что
веб-скрапинг
—
одна
из
немногих
областей
программирования, восхищающая как разработчиков, так и
обычных людей. Умение легко написать простой бот, который
бы собирал данные и передавал их через терминал или
сохранял в базе данных, не перестает повергать в некий трепет
от осознания своих возможностей, независимо от того, сколько
раз вам приходилось делать это раньше.
К сожалению, общаясь с другими программистами на тему
веб-скрапинга, я обнаружила, что не все хорошо понимают
суть метода. Одни считают его не вполне законным (и они
ошибаются), другие не умеют обрабатывать страницы,
содержащие много кода JavaScript или требующие регистрации.
Многие не знают, как начать крупный проект по скрапингу или
даже где искать нужные данные. Книга призвана ответить на
многие из этих вопросов, развеять ошибочные представления о
веб-скрапинге, а также предоставить исчерпывающее
руководство по решению его наиболее распространенных
задач.
Веб-скрапинг — обширная и быстро развивающаяся
область, поэтому я постаралась представить здесь не только
общие принципы, но и конкретные примеры, охватывающие
практически все способы сбора данных, с которыми вы,
вероятно, столкнетесь. В книге приводятся примеры кода,
демонстрирующие эти принципы и позволяющие проверить их
на практике. Сами примеры можно использовать и изменять
как с указанием авторства, так и без него (хотя благодарности
всегда приветствуются). Все примеры кода доступны на GitHub
(http://www.pythonscraping.com/code/),
где
их
можно
просмотреть и скачать.
Что такое веб-скрапинг
Автоматизированный сбор данных в Интернете почти так же
стар, как и сам Интернет. Несмотря на то что термин «вебскрапинг» не является новым, еще несколько лет назад эту
методику чаще называли анализом интерфейсных данных,
интеллектуальным анализом данных, сбором веб-данных и т.п.
Похоже, что наконец-то все пришли к единому мнению и
предпочли называть это веб-скрапингом, поэтому я буду
использовать данный термин на протяжении всей книги, хотя
специализированные программы, которые просматривают
несколько веб-страниц, я буду называть веб-краулерами, а
программы, предназначенные для собственно веб-скрапинга,
— ботами.
Теоретически веб-скрапинг — это сбор данных с
использованием любых средств, за исключением программ,
взаимодействующих с API. Обычно для этого пишут
автоматизированную программу, которая обращается к вебсерверу, запрашивает данные (как правило, в формате HTML
или в других форматах веб-страниц), а затем анализирует эти
данные и извлекает оттуда полезную информацию.
На практике веб-скрапинг включает в себя широкий спектр
методов и технологий программирования, таких как анализ
данных, синтаксический анализ естественных языков и
информационная безопасность. Именно потому, что эта
область столь широка, в части I данной книги будут
рассмотрены фундаментальные основы веб-скрапинга и вебкраулинга, а в части II — более углубленные темы. Я
рекомендую внимательно изучить первую часть и погружаться
в более специализированные разделы второй части по мере
необходимости.
Почему это называется веб-скрапингом
Получать доступ к Интернету только через браузер — значит
упускать массу возможностей. Браузеры (кроме --">
- 1
- 2
- 3
- . . .
- последняя (89) »
Книги схожие с «Современный скрапинг веб-сайтов с помощью Python» по жанру, серии, автору или названию:
Андрей Владимирович Попов, Евгений Александрович Шикин - Администрирование Windows с помощью WMI и WMIC Жанр: Windows Год издания: 2004 Серия: Мастер систем |