Обработка больших данных с Apache Spark

Н. А. Бутаков, М. В. Петров, Д. Насонов

Учебно-методическое пособие по обработке больших данных с использованием фреймворка Apache Spark. Книга предназначена для студентов магистратуры по направлению "Прикладная математика и информатика" и содержит теоретический материал с практическими примерами для лабораторных работ.

Пособие охватывает архитектуру распределенных приложений Spark, основные концепции Resilient Distributed Datasets (RDD), графы преобразований, механизмы загрузки данных из внешних хранилищ и управления памятью. Особое внимание уделяется организации ETL-конвейеров с использованием Spark SQL и DataFrame API.

В книге подробно рассматриваются этапы обработки данных, shuffle-механизмы, итеративные вычисления для машинного обучения, а также принципы работы с распределенными кластерными системами. Практическая часть включает настройку окружения, создание Spark-проектов и разработку приложений для обработки различных типов данных.

Материал структурирован от базовых концепций к продвинутым темам, что позволяет последовательно освоить технологии распределенной обработки больших данных и применять машинное обучение на масштабируемых наборах данных.

Похожие книги

Spark в действии. С примерами на Java, Python и Scala

Жан-Жорж Перрен

Эффективный Spark. Масштабирование и оптимизация

Холден Карау, Рейчел Уоррен

Spark для профессионалов: современные паттерны обработки больших данных

Сэнди Риза, Ури Лезерсон, Шон Оуэн, Джош Уиллс

Графовые алгоритмы. Практическая реализация на платформах Apache Spark и Neo4j

Марк Нидхем, Эми Ходлер

Hands-on Guide to Apache Spark 3: Build Scalable Computing Engines for Batch and Stream Data Processing

Alfonso Antolínez García

Конвейеры данных. Карманный справочник

Джеймс Денсмор

Потоковые базы данных. Объединение пакетной и потоковой обработки

Хьюберт Дюлей, Ральф М. Дебусманн

Работа с BigData в облаках. Обработка и хранение данных с примерами из Microsoft Azure

Сенько А.

Машинное обучение с использованием Python. Сборник рецептов: Практические решения от предобработки до глубокого обучения

Кайл Галлатин, Крис Элбон

Большие данные. Современные фреймворки и разработка приложений

Доминико Талия, Паоло Трунфио, Фабрицио Мароццо, Лорис Белькастро, Риккардо Кантини, Алессио Орсино