Сбор данных в Интернете на языке R

Книга посвящена практическим аспектам сбора и подготовки данных из интернета с использованием языка программирования R. В современном мире огромные массивы данных разбросаны по веб-страницам, социальным сетям, логам серверов и другим онлайн-источникам. Прежде чем приступить к анализу, эти данные необходимо корректно извлечь, обработать и сохранить в структурированном виде. Данное издание предлагает комплексный подход к решению этой задачи.

Первая часть книги служит кратким, но ёмким введением в язык R. В ней рассматриваются основы работы в среде разработки RStudio, синтаксис языка, основные типы данных (векторы, матрицы, списки, таблицы), а также ключевые пакеты-расширения. Этот раздел позволяет читателям, не знакомым с R, быстро освоить необходимый инструментарий для дальнейшей работы.

Вторая, основная часть, фокусируется непосредственно на методах сбора данных. Автор подробно разбирает работу с открытыми данными, техники извлечения информации из веб-страниц (веб-скрейпинг) и API социальных сетей. Особое внимание уделяется техническим основам, без которых невозможен эффективный сбор данных: пониманию протокола HTTP, функциям импорта данных из различных форматов (CSV, JSON, XML и др.) и применению регулярных выражений для обработки текста.

Завершается книга практическим примером — созданием картографических визуализаций на основе собранных данных, что демонстрирует полный цикл работы: от получения сырых данных из сети до их анализа и наглядного представления. Издание адресовано специалистам по анализу данных, исследователям и программистам, которые сталкиваются с необходимостью автоматизированного сбора информации из интернета для последующей аналитики.

Сбор данных в Интернете на языке R
B
Автор
Дмитрий Храмов
Издательство
ДМК Пресс
Год
2017
Язык
Русский
1
Оцените книгу

Чтобы читать книгу, войдите или зарегистрируйтесь

Ознакомительный фрагмент