Deep Reinforcement Learning with Python: RLHF for Chatbots and Large Language Models, Second Edition
Эта книга представляет собой практическое руководство по применению глубокого обучения с подкреплением (Deep Reinforcement Learning) для создания и улучшения чат-ботов и больших языковых моделей (LLM) с использованием метода обучения с подкреплением на основе человеческих предпочтений (RLHF). Второе издание обновлено с учётом последних достижений в области искусственного интеллекта и генеративного ИИ.
Читатели познакомятся с фундаментальными концепциями reinforcement learning, включая марковские процессы принятия решений, функции ценности и политики, а также их интеграцию с глубокими нейронными сетями. Особое внимание уделяется практической реализации алгоритмов на Python с использованием популярных библиотек, таких как PyTorch и TensorFlow, для решения реальных задач в NLP.
Ключевой темой книги является RLHF (Reinforcement Learning from Human Feedback) — метод, лежащий в основе современных продвинутых языковых моделей. Автор подробно разбирает, как собирать человеческие предпочтения, обучать модели вознаграждения и применять алгоритмы RL для тонкой настройки LLM, чтобы сделать их более безопасными, полезными и соответствующими человеческим ценностям.
Книга содержит множество практических примеров, упражнений и case studies, включая построение диалоговых агентов, модификацию поведения генеративных моделей и оптимизацию ответов чат-ботов. Издание подходит как для исследователей в области машинного обучения, так и для практикующих инженеров, желающих углубить свои знания в области RL и его применения к языковым моделям.









