Книги / AI и ML / LLM / Observability for Large Language Models: Site Reliability and Chaos Engineering for AI at Scale

Observability for Large Language Models: Site Reliability and Chaos Engineering for AI at Scale

Ankush Sharma

Книга посвящена наблюдаемости (observability) и обеспечению надежности крупных языковых моделей (LLM) в промышленной эксплуатации. Автор, Ankush Sharma, рассматривает LLM-системы как распределенные системы с уникальными характеристиками: вероятностное выполнение, токенизация, архитектура Transformer.

В первой части закладываются основы: объясняется устройство LLM (внимание, токены, вероятностная природа), их роль в AI-системах (RAG-пайплайны, оркестрация агентов). Затем книга переходит к практическим аспектам Site Reliability Engineering (SRE) применительно к LLM: мониторинг, метрики, логирование, трейсинг.

Особое внимание уделяется Chaos Engineering для AI-систем — методологии внесения преднамеренных сбоев для проверки устойчивости. Рассматриваются сценарии: деградация качества ответов, дрейф данных, аномалии latency, сбои в RAG-пайплайнах.

Книга содержит практические примеры настройки observability-стека (OpenTelemetry, Prometheus, Grafana) для LLM-инференса, а также паттерны построения отказоустойчивых AI-сервисов. Предназначена для SRE-инженеров, ML-инженеров и архитекторов, работающих с LLM в production.