Предварительная подготовка данных в Python. Том 2: План, примеры и метрики качества
Второй том двухтомного издания, посвящённого применению классических методов машинного обучения в промышленных задачах. Книга фокусируется на ключевом этапе любого ML-проекта — предварительной подготовке данных. Автор подробно рассматривает процесс формирования выборки, определение зависимой переменной, работу с «окнами выборки» и «окнами созревания».
В практической части освещаются основные техники обработки данных: загрузка из CSV и SQL-источников, удаление бесполезных и рискованных переменных, преобразование типов и шкал, нормализация строк, обработка дубликатов, редких категорий и пропусков. Отдельное внимание уделяется работе с выбросами, вычислению описательных статистик и анализу распределений.
Издание содержит примеры использования полезных библиотек и фреймворков, таких как H2O, Dask, Docker и Google Colab, что делает материал применимым в современных производственных средах. Книга рассчитана на специалистов по анализу данных и будет полезна всем, кто интересуется практическими аспектами машинного обучения.









