Deep Reinforcement Learning with Python: RLHF for Chatbots and Large Language Models, Second Edition

Nimish Sanghi

Эта книга представляет собой практическое руководство по применению глубокого обучения с подкреплением (Deep Reinforcement Learning) для создания и улучшения чат-ботов и больших языковых моделей (LLM) с использованием метода обучения с подкреплением на основе человеческих предпочтений (RLHF). Второе издание обновлено с учётом последних достижений в области искусственного интеллекта и генеративного ИИ.

Читатели познакомятся с фундаментальными концепциями reinforcement learning, включая марковские процессы принятия решений, функции ценности и политики, а также их интеграцию с глубокими нейронными сетями. Особое внимание уделяется практической реализации алгоритмов на Python с использованием популярных библиотек, таких как PyTorch и TensorFlow, для решения реальных задач в NLP.

Ключевой темой книги является RLHF (Reinforcement Learning from Human Feedback) — метод, лежащий в основе современных продвинутых языковых моделей. Автор подробно разбирает, как собирать человеческие предпочтения, обучать модели вознаграждения и применять алгоритмы RL для тонкой настройки LLM, чтобы сделать их более безопасными, полезными и соответствующими человеческим ценностям.

Книга содержит множество практических примеров, упражнений и case studies, включая построение диалоговых агентов, модификацию поведения генеративных моделей и оптимизацию ответов чат-ботов. Издание подходит как для исследователей в области машинного обучения, так и для практикующих инженеров, желающих углубить свои знания в области RL и его применения к языковым моделям.

Похожие книги

Reinforcement Learning for Finance: A Python-Based Introduction

Yves Hilpisch

Introduction to Python and Large Language Models: A Guide to Language Models

Dilyan Grigorov

Pro Deep Learning with TensorFlow 2.0: A Mathematical Approach to Advanced Artificial Intelligence in Python

Santanu Pattanayak

TensorFlow for Deep Learning: From Linear Regression to Reinforcement Learning

Bharath Ramsundar, Reza Bosagh Zadeh

Java Deep Learning Cookbook: Train neural networks for classification, NLP, and reinforcement learning using Deeplearning4j

Rahul Raj

Text Analytics with Python: A Practitioner’s Guide to Natural Language Processing, Second Edition

Dipanjan Sarkar

Python Deep Learning

Ivan Vasilev

Reinforcement Learning: Theory and Python Implementation

Zhiqing Xiao

Learn TensorFlow 2.0: Implement Machine Learning and Deep Learning Models with Python

Pramod Singh, Avinash Manure

Deep Learning with PyTorch, Second Edition: Training and Applying Deep Learning and Generative AI Models

Howard Huang, Eli Stevens, Luca Antiga, Thomas Viehmann