Applied Text Analysis with Python: Enabling Language Aware Data Products with Machine Learning

Книга «Applied Text Analysis with Python» представляет собой практическое руководство по обработке естественного языка (NLP) с использованием Python. Авторы фокусируются на создании «языково-осознанных» продуктов данных, сочетая методы машинного обучения с инструментами анализа текста.

В первой части рассматриваются фундаментальные этапы работы с текстовыми данными: сбор корпусов (скрапинг, RSS, API), управление корпусами, предобработка (токенизация, сегментация, части речи) и преобразование данных. Особое внимание уделяется построению эффективных конвейеров обработки текста.

Вторая часть посвящена машинному обучению на текстах: векторному представлению (TF-IDF, распределённые представления), извлечению признаков, использованию Scikit-Learn и Gensim для построения моделей. Книга демонстрирует, как создавать специализированные модели для конкретных предметных областей, где контекст языка играет ключевую роль.

Издание ориентировано на практиков — data scientists и разработчиков, которые хотят интегрировать анализ текста в свои приложения. Примеры кода, рекомендации по архитектуре решений и внимание к управлению корпусами делают книгу ценным ресурсом для создания промышленных NLP-систем.

Applied Text Analysis with Python: Enabling Language Aware Data Products with Machine Learning
A
Автор
Benjamin Bengfort, Rebecca Bilbro, Tony Ojeda
Издательство
O'Reilly Media
Год
2016
Язык
Английский
1
Оцените книгу

Чтобы читать книгу, войдите или зарегистрируйтесь

Ознакомительный фрагмент