Библиотека knigago >> Компьютеры и Интернет >> Учебники и самоучители по компьютеру >> Современный скрапинг веб-сайтов с помощью Python


СЛУЧАЙНЫЙ КОММЕНТАРИЙ

# 882, книга: Жена господина Мильтона, Стихотворения
автор: Р Грейвз

Роберт Грейвз, плодовитый и прославленный британский писатель, подарил нам шедевр исторической прозы в своем сборнике "Жена господина Мильтона, Стихотворения". Это не просто ода одному из величайших поэтов английского языка, но и захватывающий рассказ о его первой жене, Мэри Пауэлл. Грейвз искусно погружает читателей в XVII век, воссоздавая атмосферу пуританской Англии и сложные отношения между Мильтоном и его женой. Он использует как исторические документы, так и воображение, чтобы...

СЛУЧАЙНАЯ КНИГА

Райан Митчелл - Современный скрапинг веб-сайтов с помощью Python

Современный скрапинг веб-сайтов с помощью Python
Книга - Современный скрапинг веб-сайтов с помощью Python.  Райан Митчелл  - прочитать полностью в библиотеке КнигаГо
Название:
Современный скрапинг веб-сайтов с помощью Python
Райан Митчелл

Жанр:

Учебники и самоучители по компьютеру

Изадано в серии:

неизвестно

Издательство:

неизвестно

Год издания:

-

ISBN:

неизвестно

Отзывы:

Комментировать

Рейтинг:

Поделись книгой с друзьями!

Помощь сайту: донат на оплату сервера

Краткое содержание книги "Современный скрапинг веб-сайтов с помощью Python"


Читаем онлайн "Современный скрапинг веб-сайтов с помощью Python". [Страница - 2]

прочего)
удобны для выполнения скриптов JavaScript, вывода
изображений и представления объектов в понятной для
человека форме, однако веб-скраперы гораздо лучше
справляются с быстрым сбором и обработкой больших объемов
данных. Вместо того чтобы просматривать страницу за
страницей на экране монитора, можно читать сразу целые
базы данных, в которых хранятся тысячи и даже миллионы
страниц.
Кроме того, веб-скраперы позволяют заглядывать в места,
недоступные обычным поисковым системам. Так, при поиске в
Google «самых дешевых рейсов в Бостон» вы получите кучу
ссылок на рекламные объявления и популярные сайты поиска
авиарейсов. Google знает только то, что сообщается на
страницах оглавлений этих сайтов, а вовсе не точные
результаты различных запросов, введенных в приложение
поиска рейсов. Однако правильно построенный веб-скрапер
способен создать график изменения стоимости перелета в
Бостон во времени на разных сайтах и определить даты, когда
можно купить самый выгодный билет.

Вы спросите: «Разве API не создаются специально для сбора
данных?» (О том, что такое API, см. в главе 12.) Действительно,
возможности API бывают просто фантастическими, если
удастся найти тот из них, который соответствует вашим целям.
API предназначены для построения удобного потока хорошо
отформатированных данных из одной компьютерной
программы в другую. Для многих типов данных, которые вы,
возможно, захотите использовать, существуют готовые API —
например, для постов Twitter или страниц «Википедии». Как
правило,
если
существует
подходящий
API,
то
предпочтительнее использовать его вместо создания бота для
получения тех же данных. Однако нужного API может не
оказаться, или же этот API может не соответствовать вашим
целям по нескольким причинам:


вам необходимо собирать относительно небольшие,
ограниченные наборы данных с большого количества
сайтов, у которых нет единого API;

• нужных данных сравнительно мало или они необычны и
разработчик посчитал неоправданным создание для них
специального API;
• источник не обладает инфраструктурой или техническими
возможностями для создания API;
• это ценные и/или защищенные данные, не предназначенные
для широкого распространения.
Даже если API действительно существует, его возможности
по объему и скорости обрабатываемых запросов, а также по
типам или формату предоставляемых данных могут оказаться
недостаточными для ваших целей.

Именно в таких случаях в дело вступает веб-скрапинг. За
редким исключением, если данные доступны в браузере, то
доступны и через скрипт Python. Данные, доступные в скрипте,
можно сохранить в базе данных. А с сохраненными данными
можно делать практически все что угодно.
Разумеется, у доступа к почти любым данным есть
множество чрезвычайно полезных вариантов применения:
системы прогнозирования рынка, машинного перевода и даже
медицинской
диагностики
получили
огромное
распространение благодаря возможности извлекать и
анализировать данные с новостных сайтов, из переведенных
текстов и с форумов по вопросам здоровья соответственно.
Даже в мире искусства веб-скрапинг расширяет
возможности для творчества. В 2006 году проект We Feel Fine
(«Мы прекрасно себя чувствуем») (http://wefeelfine.org/)
Джонатана Харриса (Jonathan Harris) и Сэпа Камвара (Sep
Kamvar) собрал из нескольких англоязычных блогов фразы,
начинающиеся со слов I feel или I am feeling («я чувствую, я
ощущаю»). В итоге получилась визуализация большого
количества данных, описывающих то, что чувствовал мир день
за днем, минуту за минутой.
Независимо от того, чем вы занимаетесь, веб-скрапинг
почти всегда дает возможность сделать это более эффективно,
повысить продуктивность или даже перейти на совершенно
новый уровень.

Об этой книге
Данная книга — не только начальное пособие по вебскрапингу, но и всеобъемлющее руководство по сбору,
преобразованию и использованию данных из несовместимых
источников. Однако, несмотря на то что здесь применяется

язык программирования Python и изложены многие его
основы, книгу не следует использовать для знакомства с этим
языком.
Если вы вообще не знаете Python, то вам может быть сложно
читать данную книгу. Пожалуйста, не используйте ее в качестве
учебника по основам Python. Учитывая эту проблему, я
постаралась представить все концепции и --">

Оставить комментарий:


Ваш e-mail является приватным и не будет опубликован в комментарии.