Жан-Жорж Перрен - Spark в действии
Название: | Spark в действии | |
Автор: | Жан-Жорж Перрен | |
Жанр: | Другие языки и системы программирования | |
Изадано в серии: | неизвестно | |
Издательство: | ДМК Пресс | |
Год издания: | 2021 | |
ISBN: | 978-5-97060-879-1 | |
Отзывы: | Комментировать | |
Рейтинг: | ||
Поделись книгой с друзьями! Помощь сайту: донат на оплату сервера |
Краткое содержание книги "Spark в действии"
Обработка больших данных с каждым днем приобретает все большее значение. В этой книге подробно рассматривается организация обработки больших данных с использованием аналитической операционной системы Apache Spark. Тщательно описываются процессы потребления, преобразования и публикации результатов обработки данных; продемонстрированы возможности Apache Spark при работе с разнообразными форматами исходных данных (текст, JSON, XML, СУРБД и многими другими) и при публикации результатов в разнообразных форматах. Особое внимание уделяется обработке потоковых данных, что весьма важно в современных условиях. Подробно рассмотрены организация и архитектура кластера Spark. В приложениях представлена обширная справочная информация, необходимая каждому разработчику, использующему Spark.
Книга содержит множество иллюстраций и примеров исходного кода на языке Java с подробными комментариями.
Издание предназначено для разработчиков, начинающих осваивать систему Spark.
Читаем онлайн "Spark в действии" (ознакомительный отрывок). [Страница - 2]
Природная лень .................................................................................... 112
Создание простого приложения для развертывания ........................ 138
Развертывание простого приложения ................................................ 165
Потребление данных ............................................................................ 190
Потребление данных из файлов .......................................................... 192
Потребление из баз данных ................................................................. 226
Более сложный процесс потребления: поиск источников
данных и создание собственных ......................................................... 255
Потребление через структурированные потоки ................................ 288
Преобразование данных ...................................................................... 313
Работа с языком SQL ............................................................................ 314
Преобразование данных ...................................................................... 329
Преобразование документов в целом................................................. 364
Расширенные преобразования с помощью функций,
определенных пользователем ............................................................. 378
Агрегирование данных ........................................................................ 396
Продолжаем изучение Spark ................................................................ 424
Кеширование и копирование данных в контрольных точках:
улучшение производительности Spark ............................................... 426
Экспорт данных и создание полноценных конвейеров
обработки данных ................................................................................ 455
Описание ограничений процесса развертывания: объяснение
экосистемы ........................................................................................... 478
Содержание
Оглавление ..................................................................................................5
Словарь терминов ...................................................................................15
Вступительное слово ..............................................................................17
Предисловие .............................................................................................19
Благодарности ..........................................................................................21
О чем эта книга ........................................................................................24
Об авторе ...................................................................................................32
Иллюстрация на обложке ......................................................................33
Часть I
1
Теория, разбавленная превосходными
примерами................................................................................35
Так что же такое Spark? ............................................................36
1.1
1.2
1.3
Общая картина: что такое Spark и что он делает ...................37
Что такое Spark ....................................................................37
Четыре столпа маны .............................................................40
Как можно использовать Spark ..................................................41
1.2.1 Spark в процессе обработки данных / инженерии данных .......41
1.2.2 Spark в научных исследованиях в области обработки
данных ....................................................................................44
Что можно делать с помощью Spark .........................................45
1.3.1 Spark прогнозирует качество пунктов питания
Северной Каролины ................................................................46
1.3.2 Spark обеспечивает быструю передачу данных
для Lumeris .............................................................................47
1.3.3 Spark анализирует журналы наблюдения
за оборудованием CERN .........................................................48
1.3.4 Другие варианты использования ...........................................48
1.1.1
1.1.2
Содержание
1.4
7
Почему вам очень понравится фрейм данных .......................48
Фрейм данных с точки зрения Java ........................................49
Фрейм данных с точки зрения СУРБД ...................................49
Графическое представление фрейма данных.........................50
1.5 Первый пример..............................................................................51
1.5.1 Рекомендуемое программное обеспечение .............................51
1.5.2 Скачивание исходного кода ....................................................52
1.5.3 Запуск первого приложения ...................................................52
1.5.4 Первый исходный код для вас .................................................53
Резюме .......................................................................................................54
2
1.4.1
1.4.2
1.4.3
Архитектура и рабочий процесс ............................................56
2.1
2.2
2.3
Создание собственной мысленной (когнитивной)
модели .............................................................................................57
Использование кода Java для создания мысленной
(когнитивной) модели..................................................................58
Подробный разбор приложения ................................................61
Установление соединения с ведущим узлом...........................62
Загрузка или потребление содержимого CSV-файла ............63
Преобразование данных .........................................................66
Сохранение работы, сделанной в фрейме данных,
в базе данных --">