Современный скрапинг веб-сайтов с помощью Python. 2-е межд. издание
Книга Райана Митчелла представляет собой исчерпывающее руководство по автоматизированному сбору данных из интернета с использованием Python. Автор подробно объясняет фундаментальные принципы веб-скрапинга, развеивая распространённые мифы о его законности и сложности. Издание охватывает как базовые техники запросов и парсинга HTML, так и продвинутые темы, включая обработку JavaScript-страниц, обход систем защиты, работу с формами и сессиями, а также масштабирование проектов.
В первой части книги читатель знакомится с основными инструментами и библиотеками Python для скрапинга, такими как requests и BeautifulSoup, учится извлекать структурированную информацию из веб-страниц и обходить сайты с помощью краулеров. Практические примеры кода демонстрируют решение типовых задач, с которыми сталкиваются разработчики при сборе данных.
Вторая часть посвящена более сложным сценариям: анализу динамического контента, взаимодействию с API, хранению и обработке больших объёмов данных, этическим и юридическим аспектам веб-скрапинга. Особое внимание уделено оптимизации производительности и надёжности скраперов в реальных условиях. Книга подойдёт как начинающим программистам, так и опытным разработчикам, желающим систематизировать знания в области автоматизации сбора веб-данных.









