Обработка больших данных с Apache Spark
Учебно-методическое пособие по обработке больших данных с использованием фреймворка Apache Spark. Книга предназначена для студентов магистратуры по направлению "Прикладная математика и информатика" и содержит теоретический материал с практическими примерами для лабораторных работ.
Пособие охватывает архитектуру распределенных приложений Spark, основные концепции Resilient Distributed Datasets (RDD), графы преобразований, механизмы загрузки данных из внешних хранилищ и управления памятью. Особое внимание уделяется организации ETL-конвейеров с использованием Spark SQL и DataFrame API.
В книге подробно рассматриваются этапы обработки данных, shuffle-механизмы, итеративные вычисления для машинного обучения, а также принципы работы с распределенными кластерными системами. Практическая часть включает настройку окружения, создание Spark-проектов и разработку приложений для обработки различных типов данных.
Материал структурирован от базовых концепций к продвинутым темам, что позволяет последовательно освоить технологии распределенной обработки больших данных и применять машинное обучение на масштабируемых наборах данных.









