Apache Airflow и конвейеры обработки данных
Эта книга представляет собой практическое руководство по созданию и сопровождению эффективных конвейеров обработки данных с использованием платформы Apache Airflow. Издание охватывает все аспекты работы с Airflow — от базовых принципов до продвинутых практик развертывания в промышленной среде.
В первой части читатели, мало знакомые с Airflow, получат фундаментальное представление о принципах работы платформы, анатомии DAG, планировании задач и определении зависимостей между ними. Вторая часть углубляется в более сложные темы: запуск рабочих процессов, интеграцию с внешними системами, создание пользовательских компонентов, тестирование и контейнеризацию задач.
Третья часть посвящена практическому применению Airflow в реальных проектах, включая лучшие практики, эксплуатацию в промышленном окружении, вопросы безопасности и завершается полноценным проектом по анализу транспортных данных Нью-Йорка. Четвертая часть рассматривает развертывание Airflow в облачных средах AWS, Azure и GCP.









