Книги / AI и ML / Машинное обучение / Applied Text Analysis with Python: Enabling Language Aware Data Products with Machine Learning

Applied Text Analysis with Python: Enabling Language Aware Data Products with Machine Learning

Benjamin Bengfort, Rebecca Bilbro, Tony Ojeda

Книга «Applied Text Analysis with Python» представляет собой практическое руководство по обработке естественного языка (NLP) с использованием Python. Авторы фокусируются на создании «языково-осознанных» продуктов данных, сочетая методы машинного обучения с инструментами анализа текста.

В первой части рассматриваются фундаментальные этапы работы с текстовыми данными: сбор корпусов (скрапинг, RSS, API), управление корпусами, предобработка (токенизация, сегментация, части речи) и преобразование данных. Особое внимание уделяется построению эффективных конвейеров обработки текста.

Вторая часть посвящена машинному обучению на текстах: векторному представлению (TF-IDF, распределённые представления), извлечению признаков, использованию Scikit-Learn и Gensim для построения моделей. Книга демонстрирует, как создавать специализированные модели для конкретных предметных областей, где контекст языка играет ключевую роль.

Издание ориентировано на практиков — data scientists и разработчиков, которые хотят интегрировать анализ текста в свои приложения. Примеры кода, рекомендации по архитектуре решений и внимание к управлению корпусами делают книгу ценным ресурсом для создания промышленных NLP-систем.