Build a Large Language Model (From Scratch)
Эта книга представляет собой практическое руководство по созданию больших языковых моделей (LLM) с нуля. Автор, известный эксперт в области машинного обучения, проводит читателя через три ключевых этапа разработки LLM: реализацию архитектуры и подготовку данных, предварительное обучение на неразмеченных данных для создания базовой модели, а также тонкую настройку для решения конкретных задач, таких как классификация текста или создание персональных ассистентов.
Книга начинается с фундаментальных концепций, включая понимание архитектуры трансформеров и механизмов внимания, которые лежат в основе современных LLM. Далее подробно рассматриваются практические аспекты работы с текстовыми данными: токенизация, создание эмбеддингов, байт-парное кодирование и методы семплирования данных.
Особое внимание уделяется реализации ключевых компонентов LLM, включая механизмы самовнимания с обучаемыми весами и архитектуру GPT. Читатель научится создавать, предобучать и тонко настраивать модели, используя PyTorch, что делает книгу ценным ресурсом для разработчиков и исследователей, желающих глубоко понять внутреннее устройство языковых моделей.









