Анализ данных с помощью Python и PySpark

Джонатан Риу

Эта книга представляет собой практическое руководство по использованию PySpark — мощного фреймворка для распределенной обработки данных на языке Python. Автор подробно объясняет ключевые концепции Apache Spark, такие как Resilient Distributed Datasets (RDD) и DataFrames, и показывает, как эффективно применять их для анализа больших данных.

Читатель научится настраивать среду PySpark, выполнять основные операции с данными, включая трансформации и агрегации, а также оптимизировать производительность распределенных вычислений. Книга содержит множество примеров кода и реальных сценариев использования, что делает её ценным ресурсом как для начинающих, так и для опытных специалистов по данным.

Особое внимание уделяется сравнению подходов RDD и DataFrame, что помогает выбрать оптимальный метод для решения конкретных задач. Издание также охватывает передовые темы, такие как машинное обучение с MLlib и работа со структурированными потоками данных, обеспечивая комплексное понимание экосистемы PySpark.

Похожие книги

Python для анализа данных. Обработка данных с помощью pandas, NumPy и Jupyter

Уэс Маккинни

Основы Data Science с использованием R, Python и открытых данных

Марко Кремонини

Starting Data Analytics with Generative AI and Python

Artur Guja, Marlena Siwiak, Marian Siwiak

Python для анализа данных. Обработка данных, визуализация и моделирование с помощью Python

Уэс Маккинни

Applied Data Science Using PySpark: Learn the End-to-End Predictive Model-Building Cycle, Second Edition

Ramcharan Kakarla, Sundar Krishnan, Balaji Dhamodharan, Venkata Gunnu

SQL для начинающих: Полное руководство по базам данных и SQL

Джон Мюллер, Лейн Мэттьюз

Интеллектуальный анализ данных на языке Python

Демидова Л. А.

Spark в действии. С примерами на Java, Python и Scala

Жан-Жорж Перрен

Практическая аналитика данных. Сбор, обработка и визуализация данных на Python

Игорь Семичев

Основы науки о данных на Python

Джон М. Ши