Observability for Large Language Models: Site Reliability and Chaos Engineering for AI at Scale
Книга посвящена наблюдаемости (observability) и обеспечению надежности крупных языковых моделей (LLM) в промышленной эксплуатации. Автор, Ankush Sharma, рассматривает LLM-системы как распределенные системы с уникальными характеристиками: вероятностное выполнение, токенизация, архитектура Transformer.
В первой части закладываются основы: объясняется устройство LLM (внимание, токены, вероятностная природа), их роль в AI-системах (RAG-пайплайны, оркестрация агентов). Затем книга переходит к практическим аспектам Site Reliability Engineering (SRE) применительно к LLM: мониторинг, метрики, логирование, трейсинг.
Особое внимание уделяется Chaos Engineering для AI-систем — методологии внесения преднамеренных сбоев для проверки устойчивости. Рассматриваются сценарии: деградация качества ответов, дрейф данных, аномалии latency, сбои в RAG-пайплайнах.
Книга содержит практические примеры настройки observability-стека (OpenTelemetry, Prometheus, Grafana) для LLM-инференса, а также паттерны построения отказоустойчивых AI-сервисов. Предназначена для SRE-инженеров, ML-инженеров и архитекторов, работающих с LLM в production.
