The Hundred-Page Language Models Book
«The Hundred-Page Language Models Book» — это лаконичное и доступное руководство по языковым моделям и машинному обучению от автора популярной серии «The Hundred-Page». Книга представляет собой мастер-класс по сжатию сложных концепций искусственного интеллекта в понятные, «разжеванные» объяснения.
В книге рассматривается полный путь от основ машинного обучения и линейной алгебры до реализации современных трансформеров и больших языковых моделей (LLM). Автор начинает с фундаментальных понятий: модели, векторы, матрицы, градиентный спуск и автоматическое дифференцирование, что делает материал доступным даже для новичков.
Основное внимание уделяется архитектуре и принципам работы языковых моделей: от классических методов Bag of Words и word embeddings до рекуррентных нейронных сетей (RNN) и трансформеров. Подробно разбираются ключевые компоненты: self-attention, multi-head attention, residual connections, нормализация и позиционные эмбеддинги (включая Rotary Position Embedding).
Заключительные главы посвящены практическим аспектам работы с LLM: тонкой настройке (finetuning), Low-Rank Adaptation (LoRA), инженерии промптов, оценке моделей, проблеме галлюцинаций, а также этическим и юридическим вопросам. Книга завершается обзором перспективных направлений: Mixture of Experts, слияние моделей, сжатие моделей и безопасность.









