How Large Language Models Work

Эта книга предлагает глубокое и систематическое погружение в архитектуру и принципы работы больших языковых моделей (LLM). Авторы, эксперты в области машинного обучения, последовательно раскрывают внутреннее устройство современных генеративных моделей, начиная с фундаментальных концепций и заканчивая практическими аспектами их применения и этическими вопросами.

Ключевой фокус сделан на детальном разборе компонентов LLM: от процесса токенизации, который преобразует текст в числовые представления, до архитектуры трансформеров — сердца современных языковых моделей. В книге подробно объясняются слои эмбеддинга, механизмы внимания, позиционное кодирование и процесс декодирования, которые вместе позволяют модели генерировать связный и контекстуально релевантный текст.

Отдельные главы посвящены процессу обучения LLM, методам контроля и настройки их поведения, а также применению моделей за пределами обработки естественного языка. Авторы также рассматривают распространённые заблуждения, текущие ограничения технологий и обсуждают важные этические аспекты разработки и использования больших языковых моделей в реальных решениях.

How Large Language Models Work
A
Автор
Edward Raff, Drew Farris, Stella Biderman
Издательство
Manning Publications
Год
2025
Язык
Английский
1
Оцените книгу

Чтобы читать книгу, войдите или зарегистрируйтесь

Ознакомительный фрагмент