Data Science at the Command Line: Obtain, Scrub, Explore, and Model Data with Unix Power Tools

Второе издание книги, которая показывает, как использовать классические Unix-инструменты командной строки для решения современных задач Data Science. Автор демонстрирует, что командная строка — это не устаревший реликт, а мощный и современный инструмент для работы с данными.

Книга охватывает полный цикл работы с данными: получение (obtain), очистку (scrub), исследование (explore) и моделирование (model). Вы узнаете, как применять такие инструменты как sed, awk, cut, sort, join и многие другие для обработки структурированных и неструктурированных данных.

Особое внимание уделяется философии Unix: использованию простых инструментов, каждый из которых выполняет одну задачу хорошо, и их комбинированию через конвейеры (pipes) для решения сложных проблем. Это позволяет создавать воспроизводимые и эффективные пайплайны обработки данных.

Книга также знакомит с современными командными инструментами, специально разработанными для Data Science, расширяя традиционный набор Unix-утилит. Практические примеры и кейсы показывают, как интегрировать командную строку в рабочий процесс data scientist'а.

Data Science at the Command Line: Obtain, Scrub, Explore, and Model Data with Unix Power Tools
A
Автор
Jeroen Janssens
Издательство
O'Reilly Media
Год
2021
Язык
Английский
2
Оцените книгу

Чтобы читать книгу, войдите или зарегистрируйтесь

Ознакомительный фрагмент