Stream Processing with Apache Spark: Best Practices for Scaling and Optimizing Apache Spark

Gerard Maas and François Garillot

Эта книга представляет собой исчерпывающее руководство по потоковой обработке данных с использованием Apache Spark. Авторы, Жерар Маас и Франсуа Гарийо, подробно рассматривают как классический Spark Streaming, так и современный Structured Streaming, предлагая лучшие практики масштабирования и оптимизации производительности.

Книга начинается с фундаментальных концепций потоковой обработки, объясняя различия между пакетной и потоковой обработкой, понятие времени в стриминге и факторы неопределенности. Затем авторы переходят к архитектурным моделям, включая Lambda и Kappa архитектуры, и показывают, как Apache Spark вписывается в эти парадигмы.

Особое внимание уделяется практическим аспектам: настройке памяти, восстановлению после сбоев, ленивым вычислениям, кэшированию и пониманию задержек. Книга содержит множество примеров на Scala и Python, а также рассматривает вопросы stateful обработки, оконных агрегаций и работы с водяными знаками (watermarks).

Это издание будет полезно как инженерам данных, стремящимся освоить потоковую обработку на Spark, так и опытным специалистам, желающим углубить свои знания в оптимизации и масштабировании стриминговых приложений.

Похожие книги

Hands-on Guide to Apache Spark 3: Build Scalable Computing Engines for Batch and Stream Data Processing

Alfonso Antolínez García

Mastering Kafka Streams and ksqlDB: Building Real-Time Data Systems by Example

Mitch Seymour

Design Patterns for Cloud Native Applications: Patterns in Practice Using APIs, Data, Events, and Streams

Kasun Indrasiri, Sriskandarajah Suhothayan

Hands-On Prescriptive Analytics: Optimizing Your Decision Making with Python

Walter R. Paczkowski

The Practitioner’s Guide to Graph Data: Applying Graph Thinking and Graph Technologies to Solve Complex Problems

Denise Koessler Gosnell, Matthias Broecheler

Introducing .NET for Apache Spark: Distributed Processing for Massive Datasets

Ed Elliott

Coding Interview Patterns

Alex Xu, Shaun Gunawardane

Advanced Operating Systems and Kernel Applications: Techniques and Technologies

Yair Wiseman, Song Jiang

Python Made Easy: A Beginner’s Guide to Coding, Data Structures, and Practical Applications

Marco Gähler

Data Contracts: Developing Production-Grade Pipelines at Scale

Chad Sanderson, Mark Freeman, B.E. Schmidt