Книги / AI и ML / Data Science / Stream Processing with Apache Spark: Best Practices for Scaling and Optimizing Apache Spark

Stream Processing with Apache Spark: Best Practices for Scaling and Optimizing Apache Spark

Gerard Maas and François Garillot

Эта книга представляет собой исчерпывающее руководство по потоковой обработке данных с использованием Apache Spark. Авторы, Жерар Маас и Франсуа Гарийо, подробно рассматривают как классический Spark Streaming, так и современный Structured Streaming, предлагая лучшие практики масштабирования и оптимизации производительности.

Книга начинается с фундаментальных концепций потоковой обработки, объясняя различия между пакетной и потоковой обработкой, понятие времени в стриминге и факторы неопределенности. Затем авторы переходят к архитектурным моделям, включая Lambda и Kappa архитектуры, и показывают, как Apache Spark вписывается в эти парадигмы.

Особое внимание уделяется практическим аспектам: настройке памяти, восстановлению после сбоев, ленивым вычислениям, кэшированию и пониманию задержек. Книга содержит множество примеров на Scala и Python, а также рассматривает вопросы stateful обработки, оконных агрегаций и работы с водяными знаками (watermarks).

Это издание будет полезно как инженерам данных, стремящимся освоить потоковую обработку на Spark, так и опытным специалистам, желающим углубить свои знания в оптимизации и масштабировании стриминговых приложений.