Обработка больших данных с Apache Spark

Учебно-методическое пособие по обработке больших данных с использованием фреймворка Apache Spark. Книга предназначена для студентов магистратуры по направлению "Прикладная математика и информатика" и содержит теоретический материал с практическими примерами для лабораторных работ.

Пособие охватывает архитектуру распределенных приложений Spark, основные концепции Resilient Distributed Datasets (RDD), графы преобразований, механизмы загрузки данных из внешних хранилищ и управления памятью. Особое внимание уделяется организации ETL-конвейеров с использованием Spark SQL и DataFrame API.

В книге подробно рассматриваются этапы обработки данных, shuffle-механизмы, итеративные вычисления для машинного обучения, а также принципы работы с распределенными кластерными системами. Практическая часть включает настройку окружения, создание Spark-проектов и разработку приложений для обработки различных типов данных.

Материал структурирован от базовых концепций к продвинутым темам, что позволяет последовательно освоить технологии распределенной обработки больших данных и применять машинное обучение на масштабируемых наборах данных.

Похожие книги

Обработка больших данных с Apache Spark
A
Автор
Н. А. Бутаков, М. В. Петров, Д. Насонов
Издательство
Университет ИТМО
Год
2019
Язык
Русский
1
Оцените книгу

Чтобы читать книгу, войдите или зарегистрируйтесь

Ознакомительный фрагмент