Жан-Жорж Перрен - Spark в действии
Название: | Spark в действии | |
Автор: | Жан-Жорж Перрен | |
Жанр: | Другие языки и системы программирования | |
Изадано в серии: | неизвестно | |
Издательство: | ДМК Пресс | |
Год издания: | 2021 | |
ISBN: | 978-5-97060-879-1 | |
Отзывы: | Комментировать | |
Рейтинг: | ||
Поделись книгой с друзьями! Помощь сайту: донат на оплату сервера |
Краткое содержание книги "Spark в действии"
Обработка больших данных с каждым днем приобретает все большее значение. В этой книге подробно рассматривается организация обработки больших данных с использованием аналитической операционной системы Apache Spark. Тщательно описываются процессы потребления, преобразования и публикации результатов обработки данных; продемонстрированы возможности Apache Spark при работе с разнообразными форматами исходных данных (текст, JSON, XML, СУРБД и многими другими) и при публикации результатов в разнообразных форматах. Особое внимание уделяется обработке потоковых данных, что весьма важно в современных условиях. Подробно рассмотрены организация и архитектура кластера Spark. В приложениях представлена обширная справочная информация, необходимая каждому разработчику, использующему Spark.
Книга содержит множество иллюстраций и примеров исходного кода на языке Java с подробными комментариями.
Издание предназначено для разработчиков, начинающих осваивать систему Spark.
Читаем онлайн "Spark в действии" (ознакомительный отрывок). [Страница - 3]
Резюме .......................................................................................................71
3
2.3.1
2.3.2
2.3.3
2.3.4
Важнейшая роль фрейма данных ...........................................72
3.1
Чрезвычайно важная роль фрейма данных в Spark ..............73
Внутренняя организация фрейма данных .............................74
Неизменяемость – это не клятва .........................................75
3.2 Использование фреймов данных на примерах ......................77
3.2.1 Фрейм данных после простой операции потребления
CSV-файла ..............................................................................79
3.2.2 Данные хранятся в разделах..................................................84
3.2.3 Подробнее о схеме...................................................................86
3.2.4 Фрейм данных после потребления формата JSON ...............87
3.2.5 Объединение двух фреймов данных ........................................94
3.3 Фрейм данных как структура Dataset.............................99
3.3.1 Повторное использование простых старых объектов
Java (POJO)............................................................................ 100
3.3.2 Создание набора данных из строк ....................................... 101
3.3.3 Преобразование фрейма данных в набор данных
и обратно ............................................................................. 103
3.4 Предшественник фрейма данных: RDD ................................. 109
Резюме ..................................................................................................... 110
3.1.1
3.1.2
Содержание
8
4
Природная лень................................................................................ 112
4.1
4.2
4.3
4.4
Пример рациональной лени из реальной жизни................. 113
Пример рациональной лени в Spark ....................................... 114
4.2.1
Рассмотрение результатов преобразований
и действий ............................................................................ 115
4.2.2 Процесс преобразования шаг за шагом ................................ 116
4.2.3 Код реализации процесса преобразования/действия .......... 119
4.2.4 Загадка создания 7 миллионов точек данных за 182 мс ...... 123
4.2.5 Загадка, связанная с измерением времени
для действий ........................................................................ 125
Сравнение с СУРБД и обычными приложениями ............... 130
4.3.1 Обработка набора данных с коэффициентами
рождаемости для подростков ............................................. 130
4.3.2 Анализ различий между обычным приложением
и приложением Spark....................................................................... 131
Spark великолепно подходит для приложений,
ориентированных на обработку данных ............................... 133
4.5 Catalyst – катализатор приложения ........................................ 133
Резюме ..................................................................................................... 137
5
Создание простого приложения
для развертывания ....................................................................... 138
5.1
Пример без операции потребления данных ......................... 139
Вычисление π ........................................................................ 139
Исходный код для вычисления приближенного значения π .... 142
Что такое лямбда-функции в Java ...................................... 148
Приближенное вычисление π с использованием
лямбда-функций ................................................................... 150
5.2 Взаимодействие со Spark ........................................................... 152
5.2.1 Локальный режим................................................................. 153
5.2.2 Режим кластера ................................................................... 154
5.2.3 Интерактивный режим Scala и Python ............................... 158
Резюме ..................................................................................................... 163
6
5.1.1
5.1.2
5.1.3
5.1.4
Развертывание простого приложения ............................. 165
6.1
6.2
Подготовка к изучению примера: роль компонент ............ 168
6.1.1
Краткий обзор компонент и взаимодействий
между ними .......................................................................... 168
6.1.2 Рекомендации по устранению проблем в архитектуре
Spark ..................................................................................... 172
6.1.3 Дополнительная информация для изучения ........................ 173
Создание кластера ...................................................................... 174
6.2.1 Создание собственного кластера ........................................ 174
6.2.2 Настройка среды кластера ................................................. 176
Содержание
6.3
9
Создание приложения для работы в кластере ...................... 179
Создание файла uberJAR для приложения ............................ 180
Создание приложения с использованием Git и Maven .......... 182
6.4 Выполнение приложения в кластере ...................................... 185
6.4.1 Передача файла uberJAR ...................................................... 185
6.4.2 Выполнение приложения ...................................................... 186
6.4.3 Анализ пользовательского интерфейса Spark .................... 187
Резюме ..................................................................................................... 188
Часть II
7
6.3.1
6.3.2
Потребление данных --">