Stream Processing with Apache Spark: Best Practices for Scaling and Optimizing Apache Spark
Эта книга представляет собой исчерпывающее руководство по потоковой обработке данных с использованием Apache Spark. Авторы, Жерар Маас и Франсуа Гарийо, подробно рассматривают как классический Spark Streaming, так и современный Structured Streaming, предлагая лучшие практики масштабирования и оптимизации производительности.
Книга начинается с фундаментальных концепций потоковой обработки, объясняя различия между пакетной и потоковой обработкой, понятие времени в стриминге и факторы неопределенности. Затем авторы переходят к архитектурным моделям, включая Lambda и Kappa архитектуры, и показывают, как Apache Spark вписывается в эти парадигмы.
Особое внимание уделяется практическим аспектам: настройке памяти, восстановлению после сбоев, ленивым вычислениям, кэшированию и пониманию задержек. Книга содержит множество примеров на Scala и Python, а также рассматривает вопросы stateful обработки, оконных агрегаций и работы с водяными знаками (watermarks).
Это издание будет полезно как инженерам данных, стремящимся освоить потоковую обработку на Spark, так и опытным специалистам, желающим углубить свои знания в оптимизации и масштабировании стриминговых приложений.










