Web Scraping with Python: Collecting Data from the Modern Web
Эта книга представляет собой практическое руководство по веб-скрапингу с использованием Python. Автор Райан Митчелл подробно объясняет, как автоматизировать сбор данных из интернета, преодолевая современные вызовы, такие как JavaScript, мультимедиа и cookies. Книга развеивает распространённые мифы о законности веб-скрапинга и чётко разграничивает использование API и скраперов.
В первой части рассматриваются основы веб-скрапинга и краулинга: отправка HTTP-запросов, парсинг HTML, работа с формами и сессиями. Автор демонстрирует, как писать ботов, которые собирают данные и сохраняют их в базах данных или выводят в терминал. Особое внимание уделяется библиотекам Python, таким как Beautiful Soup и Requests, для эффективного извлечения информации.
Вторая часть книги посвящена продвинутым темам: обработка JavaScript-сайтов, обход капч, масштабирование скраперов и этические аспекты сбора данных. Митчелл также затрагивает вопросы анализа данных и информационной безопасности, связанные с веб-скрапингом. Книга подходит как для начинающих, так и для опытных программистов, желающих автоматизировать работу с веб-контентом.









