Сбор данных в Интернете на языке R
Книга посвящена практическим аспектам сбора и подготовки данных из интернета с использованием языка программирования R. В современном мире огромные массивы данных разбросаны по веб-страницам, социальным сетям, логам серверов и другим онлайн-источникам. Прежде чем приступить к анализу, эти данные необходимо корректно извлечь, обработать и сохранить в структурированном виде. Данное издание предлагает комплексный подход к решению этой задачи.
Первая часть книги служит кратким, но ёмким введением в язык R. В ней рассматриваются основы работы в среде разработки RStudio, синтаксис языка, основные типы данных (векторы, матрицы, списки, таблицы), а также ключевые пакеты-расширения. Этот раздел позволяет читателям, не знакомым с R, быстро освоить необходимый инструментарий для дальнейшей работы.
Вторая, основная часть, фокусируется непосредственно на методах сбора данных. Автор подробно разбирает работу с открытыми данными, техники извлечения информации из веб-страниц (веб-скрейпинг) и API социальных сетей. Особое внимание уделяется техническим основам, без которых невозможен эффективный сбор данных: пониманию протокола HTTP, функциям импорта данных из различных форматов (CSV, JSON, XML и др.) и применению регулярных выражений для обработки текста.
Завершается книга практическим примером — созданием картографических визуализаций на основе собранных данных, что демонстрирует полный цикл работы: от получения сырых данных из сети до их анализа и наглядного представления. Издание адресовано специалистам по анализу данных, исследователям и программистам, которые сталкиваются с необходимостью автоматизированного сбора информации из интернета для последующей аналитики.









