Основы Data Science с использованием R, Python и открытых данных
Книга представляет собой практическое руководство по основам Data Science с использованием двух популярных языков программирования — R и Python. Автор, профессор Миланского университета, последовательно знакомит читателей с ключевыми инструментами и методами анализа данных, уделяя особое внимание работе с открытыми данными.
В первых главах рассматривается настройка рабочего окружения: установка R, RStudio, Python, Anaconda, а также основных пакетов, таких как Tidyverse, NumPy и Pandas. Даётся введение в форматы данных, включая CSV, и основы предварительной обработки данных, такие как анализ пропущенных значений и описательная статистика.
Книга построена по принципу параллельного изучения R и Python, что позволяет читателям сравнивать синтаксис и подходы двух языков для решения одних и тех же задач. Особое внимание уделяется операциям с датафреймами, организации данных и начальному исследовательскому анализу (EDA). Издание включает сопутствующие онлайн-материалы и упражнения для закрепления знаний.









