Observability for Large Language Models: Site Reliability and Chaos Engineering for AI at Scale

Ankush Sharma

Книга посвящена наблюдаемости (observability) и обеспечению надежности крупных языковых моделей (LLM) в промышленной эксплуатации. Автор, Ankush Sharma, рассматривает LLM-системы как распределенные системы с уникальными характеристиками: вероятностное выполнение, токенизация, архитектура Transformer.

В первой части закладываются основы: объясняется устройство LLM (внимание, токены, вероятностная природа), их роль в AI-системах (RAG-пайплайны, оркестрация агентов). Затем книга переходит к практическим аспектам Site Reliability Engineering (SRE) применительно к LLM: мониторинг, метрики, логирование, трейсинг.

Особое внимание уделяется Chaos Engineering для AI-систем — методологии внесения преднамеренных сбоев для проверки устойчивости. Рассматриваются сценарии: деградация качества ответов, дрейф данных, аномалии latency, сбои в RAG-пайплайнах.

Книга содержит практические примеры настройки observability-стека (OpenTelemetry, Prometheus, Grafana) для LLM-инференса, а также паттерны построения отказоустойчивых AI-сервисов. Предназначена для SRE-инженеров, ML-инженеров и архитекторов, работающих с LLM в production.

Похожие книги

Introduction to Python and Large Language Models: A Guide to Language Models

Dilyan Grigorov

Prompt Engineering for Generative AI: Future-Proof Inputs for Reliable AI Outputs at Scale

James Phoenix, Mike Taylor

Hands-On Large Language Models: Language Understanding and Generation

Jay Alammar, Maarten Grootendorst

Building Applications with Large Language Models: Techniques, Implementation, and Applications

Bhawna Singh

Scaling Enterprise Solutions with Large Language Models: Comprehensive End-to-End Generative AI Solutions for Production-Grade Enterprise Solutions

Arindam Ganguly

Observability For Legacy Systems: Methods and Solutions with OpenTelemetry and AIOps

Hyen Seuk Jeong

Large Language Model Recipes: A Hands-On Guide to Fine-Tuning, Optimization, Deployment, and Real-World Applications

Bharath Kumar Bolla, Kalpa Subbaiah, Sashi Kiran Kaata

Large Language Models Projects: Apply and Implement Strategies for Large Language Models

Pere Martra

Generative AI on Microsoft Azure: From Large Language Models to Advanced Multi-Agent Systems

Adrián González Sánchez, Jaime De Mora, Jorge García Ximénez

Deep Reinforcement Learning with Python: RLHF for Chatbots and Large Language Models, Second Edition

Nimish Sanghi