Transformers for Natural Language Processing and Computer Vision, Third Edition
Эта книга представляет собой всестороннее руководство по трансформерам — архитектуре, лежащей в основе современных генеративных AI-моделей, таких как ChatGPT, GPT-4V и DALL-E 3. Третье издание охватывает как обработку естественного языка (NLP), так и компьютерное зрение (CV), демонстрируя, как одна и та же архитектура трансформера применяется в обеих областях.
Книга начинается с истории возникновения трансформеров и объяснения фундаментальных концепций: механизм внимания, эмбеддинги, позиционное кодирование. Затем автор переходит к практическому применению библиотек Hugging Face для построения и тонкой настройки моделей. Особое внимание уделяется генеративным моделям: GPT-4V для мультимодальных задач (текст + изображения) и DALL-E 3 для генерации изображений по текстовому описанию.
В книге рассматриваются продвинутые темы: обучение с подкреплением на основе обратной связи от человека (RLHF), эффективная тонкая настройка (LoRA, адаптеры), развертывание моделей в продакшн. Каждая глава содержит практические примеры кода на Python с использованием современных фреймворков. Книга предназначена для специалистов по данным, инженеров машинного обучения и разработчиков AI-решений, желающих освоить самые передовые технологии в области генеративного AI.
