Глубокое обучение с подкреплением на Python. OpenAI Gym и TensorFlow для профи
Обучение с подкреплением — бурно развивающаяся дисциплина машинного обучения (МО), которая приближает нас к созданию истинного искусственного интеллекта.
Это доступное руководство объясняет все с самого начала на подробных примерах, написанных на Python. Для кого написана эта книга Эта книга предназначена для разработчиков МО и энтузиастов глубокого обучения, интересующихся искусственным интеллектом и желающих освоить метод обучения с подкреплением.
Прочитайте эту книгу и станьте экспертом в области обучения с подкреплением, реализуя практические примеры в работе или вне ее. Знания в области линейной алгебры, математического анализа и языка программирования Python помогут вам понять логику изложения материала.
Что в книге
Глава 1, «Введение в обучение с подкреплением», поможет понять, что такое обучение с подкреплением и как оно работает. Вы узнаете о его элементах — агентах, средах, политиках и моделях, а также о различных типах сред, платформ и библиотек, используемых в нем. В завершающей части главы рассмотрены некоторые примеры применения обучения с подкреплением.
В главе 2, «Знакомство с OpenAI и TensorFlow», описана настройка машины для различных задач обучения с подкреплением. Вы узнаете, как подготовить машину и установить на ней Anaconda, Docker, OpenAI Gym, Universe и TensorFlow. Описаны моделирование агентов в OpenAI Gym и построение бота для видеоигры. Изложены основы TensorFlow и порядок использования TensorBoard для визуализации.
Глава 3, «Марковский процесс принятия решений и динамическое программирование», объясняет, что собой представляют марковские цепи и процессы. Вы увидите, как задачи обучения с подкреплением могут моделироваться в форме марковских процессов принятия решений. Также рассмотрены некоторые фундаментальные концепции: функции ценности, Q-функции и уравнение Беллмана. Вы узнаете, что такое динамическое программирование и как решается задача о замерзшем озере с использованием итераций по ценности и политикам.
В главе 4, «Методы Монте-Карло в играх», объяснены методы Монте-Карло и разновидности методов прогнозирования Монте-Карло, в том числе при первом посещении и при каждом посещении. Вы узнаете,как использовать эти методы для игры в блек-джек. Также рассмотрены методы управления Монте-Карло с привязкой к политике и без нее.
Глава 5, «Обучение на основе временных различий», посвящена обучению на основе временных различий (TD), TD-прогнозированию и управляющим методам TD с политикой и без, таким как Q-обучение и SARSA. Вы узнаете, как задача о такси решается средствами Q-обучения и SARSA.
В главе 6, «Задача о многоруком бандите», рассмотрена одна из классических задач обучения с подкреплением — задача о многоруком бандите (MAB) или k-руком бандите. Здесь показано, как решить эту задачу с применением различных стратегий исследования, включая эпсилон-жадную стратегию, softmax-исследование, UCB и выборку Томпсона. В завершающей части этой главы продемонстрировано применение задачи MAB для показа правильного рекламного баннера.
В главе 7, «Основы глубокого обучения», изложены фундаментальные концепции глубокого обучения. Дано понятие нейросети и представлены ее типы, включая RNN, LSTM и CNN. Для демонстрации материала построены сети, решающие такие задачи, как генерирование текстов песен и классификация модных товаров.
Глава 8, «Игры Atari с использованием Deep Q Network», посвящена одному из самых популярных алгоритмов обучения с подкреплением — глубокой Q-сети (DQN). Вы узнаете о различных компонентах DQN и увидите, как построить агента, играющего в игры Atari с использованием DQN. В завершение рассмотрены некоторые улучшения архитектуры DQN, такие как двойные и дуэльные DQN.
Глава 9, «Игра Doom в глубокой рекуррентной Q-сети», объясняет принципы работы глубоких рекуррентных Q-сетей (DRQN) и их отличия от DQN. Вы узнаете, как построить агента для игры Doom на базе DRQN. В завершение главы рассмотрены глубокие рекуррентные Q-сети с вниманием, добавляющие механизм внимания в архитектуру DRQN.
Глава 10, «Асинхронная преимущественная сеть “актор-критик”», объясняет принципы работы асинхронных преимущественных сетей «актор-критик» (A3C). Рассмотрена архитектура A3C, благодаря которой вы узнаете, как на базе A3C построить агента для подъема на гору.
В главе 11, «Градиенты политик и оптимизация», показано, как градиенты политик помогают выбрать правильную политику без обязательного использования Q-функции. Также рассмотрены глубокий детерминированный метод градиента политики и современные методы оптимизации, такие как оптимизация политики доверительной области и оптимизация ближайшей политики.
Глава 12, «Автогонки с использованием DQN», содержит подробное описание построения агента для победы в игре «Автогонки» на базе дуэльной DQN.
Глава 13, «Последние достижения и следующие шаги», содержит информацию о различных достижениях в области обучения сподкреплением: агентах, дополненных воображением; обучении на человеческих предпочтениях; глубоком Q-обучении на примере демонстраций и ретроспективном воспроизведении опыта. В завершение представлены различные типы методов обучения с подкреплением, такие как иерархическое и инвертированное обучения с подкреплением.
Для того чтобы скачать книгу, Вам необходимо Авторизоваться или пройти Регистрацию
Раскрыть комментарии 0
Чтобы оставить комментарий , Вам необходимо Авторизоваться или пройти Регистрацию