AI для разработчиков 24 мин чтения

AI-агенты как автономные сотрудники 2026: multi-agent системы и оркестрация

Базу AI-агентов я разбирал отдельно — здесь следующий уровень: multi-agent системы, где несколько агентов работают как команда или целый отдел. Архитектуры оркестрации, фреймворки 2026 (LangGraph, CrewAI, AutoGen), роли агентов как сотрудников, реальные кейсы автономных отделов, память, human-in-the-loop, guardrails. На российском стеке с соблюдением 152-ФЗ. С Python-кодом supervisor-оркестрации.

AI-агентыmulti-agentLangGraphCrewAIоркестрация

Коротко (TL;DR)

  • Базу про одиночных AI-агентов я разбирал в статье «AI-агенты в бизнесе 2026: что работает vs маркетинг». Здесь — следующий уровень: несколько агентов работают как команда, отдел, автономная функция.
  • Multi-agent система — это не «один агент побольше». Это разделение труда: researcher собирает данные, writer пишет, reviewer проверяет, executor публикует. Каждый специализирован, оркестратор координирует.
  • Архитектуры 2026: supervisor (дирижёр), sequential (конвейер), hierarchical (отделы с начальниками), swarm (рой с передачей управления). Под каждую задачу — своя.
  • Фреймворки: LangGraph (граф состояний, прод-уровень), CrewAI (команды-роли), AutoGen и Microsoft Agent Framework (диалоговые агенты), OpenAI Swarm/Agents SDK (лёгкая передача управления).
  • 152-ФЗ: для multi-agent на персональных данных — YandexGPT, GigaChat либо self-hosted Qwen/Llama на серверах в РФ. Оркестрация остаётся вашим кодом, модель меняется под контур.
  • Цена multi-agent выше одиночного агента в 3-8 раз по токенам: каждый шаг — это вызов LLM, агенты «переговариваются» между собой. Экономия начинается там, где система реально заменяет часы человеческого труда.

От одного агента к команде агентов (next level)

За 2024-2026 я внедрял AI-агентов в 10+ проектах — от чат-ботов для юридических компаний до автономных систем документооборота. У меня сертификации Vanderbilt University по Prompt Engineering и AI Agents и MongoDB Inc. по RAG и vector search, обе 2026 года. И на каждом проекте, где задача переставала быть «ответь на вопрос» и становилась «выполни функцию целого отдела», один агент упирался в потолок.

Базу про одиночных агентов — что такое автономность, tools, планирование, рефлексия, какие фреймворки бывают и какие use cases реально работают — я подробно разобрал в статье «AI-агенты в бизнесе 2026». Если вы ещё путаете агента с чат-ботом, начните оттуда. Здесь я считаю, что база у вас есть, и иду на следующий уровень.

В чём потолок одиночного агента. Когда вы даёте одному агенту 15 инструментов и просят «провести исследование рынка, написать статью, проверить факты, подобрать SEO-ключи и опубликовать», происходит деградация. Модель путается в контексте, забывает промежуточные результаты, начинает галлюцинировать связи между шагами. Это как заставить одного человека быть одновременно аналитиком, копирайтером, редактором и SMM-щиком — на бумаге возможно, на практике всё делается посредственно.

Решение, которое индустрия выкристаллизовала к 2026 году — разделение труда между специализированными агентами. Один агент = одна узкая роль с 2-4 инструментами и чётким системным промптом. Над ними — оркестратор, который раздаёт задачи и собирает результаты. Это и есть переход от «AI-ассистента» к «AI-сотрудникам», которые вместе закрывают целую функцию.

Ключевая смена мышления: вы перестаёте проектировать промпт и начинаете проектировать организационную структуру. Кто за что отвечает, кто кому передаёт работу, где точка контроля качества, где человек обязан вмешаться. Это инженерия процессов, а не подбор формулировок.

Что такое multi-agent система

Multi-agent система — это несколько LLM-агентов, каждый со своей ролью, инструментами и контекстом, которые координируются для решения задачи, неподъёмной или некачественно выполнимой одним агентом. Подчёркиваю: критерий — именно «некачественно одним». Если задачу хорошо делает один агент, multi-agent вам не нужен (об этом отдельная глава ниже).

Три признака, по которым система реально multi-agent, а не маркетинговая обёртка:

  1. Разделение ответственности. У каждого агента свой узкий мандат и свой системный промпт. Researcher не пишет тексты, writer не лезет в базу данных. Специализация даёт качество.
  2. Передача работы (handoff/delegation). Агенты передают друг другу промежуточные результаты — напрямую или через оркестратор. Это не один промпт с подзадачами, это отдельные вызовы LLM с разным контекстом.
  3. Координация состояния. Есть общий «стейт» — что уже сделано, что в работе, какие результаты получены. Без управления состоянием агенты дублируют работу или теряют контекст.

Чем это отличается от одного агента с множеством tools. Одиночный агент держит весь контекст в одном окне модели: 15 инструментов, история всех шагов, все промежуточные данные. Чем длиннее контекст, тем хуже модель в нём ориентируется — это физика трансформеров, никакой промпт-инжиниринг это не лечит полностью. Multi-agent дробит контекст: writer видит только бриф и факты от researcher, но не видит сырые логи поиска. Каждый агент работает в чистом, узком контексте — и потому точнее.

Цена этого подхода — координационные издержки. Агенты «переговариваются», и каждое сообщение между ними — это токены и латентность. Multi-agent система всегда дороже и медленнее одиночного агента на ту же задачу. Оправдывается она только тогда, когда прирост качества важнее.

Архитектуры multi-agent систем

За три года практики я свёл всё многообразие к четырём базовым архитектурам. На реальных проектах чаще всего работает supervisor или гибрид supervisor + sequential.

Supervisor / orchestrator (дирижёр). Центральный агент-оркестратор получает задачу, решает, какому специалисту её отдать, собирает результат, при необходимости отправляет на доработку. Похоже на руководителя проекта: сам ничего не производит, но управляет потоком. Самая управляемая и предсказуемая архитектура — мой выбор по умолчанию для бизнес-задач.

Sequential (конвейер). Агенты выстроены в цепочку: выход одного — вход следующего. Researcher → writer → reviewer → publisher. Жёсткий порядок, минимум координации, легко отлаживать. Подходит, когда процесс линеен и этапы не меняются местами.

Hierarchical (отделы с начальниками). Многоуровневый supervisor: главный оркестратор раздаёт задачи начальникам отделов, те — своим агентам. Для крупных систем, где «отдел контента» и «отдел аналитики» внутри сами состоят из нескольких агентов. Мощно, но сложно отлаживать и дорого по токенам.

Swarm (рой). Нет центрального дирижёра. Агенты передают управление друг другу напрямую: «это вопрос по биллингу — передаю агенту биллинга». Управление кочует по рою в зависимости от задачи. Гибко, но непредсказуемо — труднее гарантировать, что задача дойдёт до конца.

АрхитектураКак устроенаКогда применятьМинус
Supervisorцентральный оркестратор раздаёт задачибольшинство бизнес-задачоркестратор — узкое место
Sequentialконвейер, выход → входлинейные процессы (контент-пайплайн)негибко при ветвлениях
Hierarchicalотделы с начальникамикрупные системы из подкомандсложно отлаживать, дорого
Swarmпередача управления между агентамимаршрутизация (поддержка, триаж)труднее гарантировать завершение

Практический совет: начинайте с supervisor или sequential. Hierarchical и swarm — это то, к чему вы приходите, когда первые две перестают масштабироваться, а не то, с чего стоит начинать. Я видел проекты, где команда сразу строила swarm «потому что модно», и потом полгода не могла понять, почему 20% задач теряются в рое.

Фреймворки multi-agent 2026

Важная мысль: фреймворк — это про оркестрацию, а не про модель. Любой из них работает с YandexGPT, GigaChat или self-hosted моделью через совместимый API. Вы выбираете фреймворк под стиль координации, а модель — под требования 152-ФЗ и бюджет.

LangGraph. Описывает систему как граф состояний: узлы — агенты и функции, рёбра — переходы. Самый прод-ориентированный инструмент 2026 года: явное управление состоянием, чекпоинты, возможность остановить и продолжить выполнение, встроенный human-in-the-loop. Мой основной выбор для систем, которые идут в продакшен. Порог входа выше, но контроль того стоит.

CrewAI. Мыслит категориями «команда» и «роль»: вы описываете агентов как сотрудников (роль, цель, backstory) и задачи между ними. Очень быстрый старт, читаемый код, отлично подходит для прототипов и контент-пайплайнов. Менее гибкий в сложной логике ветвления, чем LangGraph.

AutoGen и Microsoft Agent Framework. AutoGen — диалоговая парадигма: агенты «разговаривают» между собой в общем чате до решения задачи. В 2025-2026 Microsoft консолидирует наработки AutoGen и Semantic Kernel в единый Agent Framework — корпоративный стек с упором на интеграцию в инфраструктуру. Хороший выбор, если вы уже в экосистеме .NET/Azure-совместимых решений.

OpenAI Swarm / Agents SDK. Минималистичный подход к передаче управления (handoffs) между лёгкими агентами. Концептуально чистый, хорош для изучения паттернов и для маршрутизации. Для российского контура используется как образец архитектуры — саму оркестрацию вы пишете сами, а под капот ставите доступную модель.

ФреймворкПарадигмаСильная сторонаКогда выбрать
LangGraphграф состоянийконтроль, чекпоинты, HITLпрод-системы, сложная логика
CrewAIкоманды и ролискорость разработкипрототипы, контент-пайплайны
AutoGen / MS Agent Frameworkдиалог агентовкорпоративная интеграцияenterprise, Azure-стек
OpenAI Swarm / Agents SDKhandoffsпростота, маршрутизацияобучение паттернам, триаж

Роли агентов как сотрудников

Самый продуктивный способ проектировать multi-agent систему — думать о ней как о найме команды. Вы пишете «должностные инструкции» для каждого агента: что входит в зону ответственности, какими инструментами он пользуется, кому передаёт результат.

Researcher (аналитик). Собирает информацию: поиск по базе знаний, RAG по корпоративным документам, запросы к API, веб-поиск (где разрешён). Инструменты: vector search, API-коннекторы. Результат — структурированная выжимка фактов для остальных. Главное правило researcher: не интерпретирует и не пишет финальный текст, только добывает данные.

Writer (исполнитель-производитель). Превращает факты в продукт: текст статьи, ответ клиенту, черновик договора, описание товара. Инструменты обычно минимальны — он работает с тем, что дал researcher. Узкий контекст = качество.

Reviewer (контролёр). Проверяет результат writer на ошибки, соответствие требованиям, тон, фактологию. Может вернуть на доработку с конкретными замечаниями. Это критичный агент: именно reviewer ловит галлюцинации, пока они не ушли клиенту. На практике один reviewer повышает качество системы сильнее, чем замена модели на более дорогую.

Executor (действующий). Выполняет действие во внешнем мире: публикует, отправляет, записывает в CRM, создаёт счёт. Самый «опасный» агент — он меняет реальное состояние систем, поэтому именно перед executor чаще всего ставят human-in-the-loop.

Разделение «думающих» (researcher, writer) и «действующих» (executor) агентов — фундаментальный принцип безопасности. Думающие агенты могут ошибаться без последствий, их результат проверяется. Действующие агенты должны быть под максимальным контролем — лучше с подтверждением человека.

Кейс: автономный отдел контент-маркетинга

Самый показательный сценарий multi-agent — это контент-пайплайн, где система реально заменяет работу небольшого отдела. Опишу архитектуру, которую я собирал на практике: sequential-конвейер с supervisor-надстройкой для контроля.

Состав команды агентов: researcher собирает данные по теме из корпоративной базы и разрешённых источников; strategist формирует структуру материала и подбирает ключевые тезисы; writer пишет черновик; seo-агент проверяет ключи, заголовки, мета-описания; reviewer вычитывает на факты, тон и стиль бренда; editor-supervisor принимает финальное решение и при необходимости гоняет по кругу.

Ниже — упрощённый пример supervisor-оркестрации на CrewAI, где агенты описаны как сотрудники. Модель подключается через совместимый эндпоинт (YandexGPT/GigaChat/self-hosted) — оркестрация от модели не зависит.

# Python — контент-отдел на CrewAI (supervisor + sequential)
from crewai import Agent, Task, Crew, Process
from crewai import LLM

# Модель через совместимый эндпоинт. Для 152-ФЗ — YandexGPT/GigaChat
# или self-hosted Qwen/Llama на сервере в РФ.
llm = LLM(
    model="openai/local-qwen",            # имя в вашем шлюзе
    base_url="https://llm.internal.ru/v1",  # шлюз в контуре РФ
    api_key="...",
)

researcher = Agent(
    role="Аналитик-исследователь",
    goal="Собрать проверенные факты и данные по теме из базы знаний",
    backstory="Дотошный аналитик. Не интерпретирует — только добывает факты.",
    llm=llm,
    tools=[knowledge_base_search],  # RAG-инструмент по корп. документам
)

writer = Agent(
    role="Копирайтер",
    goal="Написать черновик статьи на основе собранных фактов",
    backstory="Пишешь ясно и по делу, без воды и канцелярита.",
    llm=llm,
)

reviewer = Agent(
    role="Редактор-контролёр",
    goal="Проверить текст на факты, тон бренда и ошибки, вернуть правки",
    backstory="Ловишь неточности и выдумки до того, как они уйдут наружу.",
    llm=llm,
)

# Задачи в конвейере: выход одной — контекст для следующей
research_task = Task(
    description="Собери ключевые факты по теме: {topic}",
    expected_output="Структурированная выжимка фактов с источниками",
    agent=researcher,
)
write_task = Task(
    description="Напиши черновик статьи по теме {topic}, опираясь на факты",
    expected_output="Черновик статьи 1500-2000 слов",
    agent=writer,
    context=[research_task],
)
review_task = Task(
    description="Проверь черновик, отметь неточности, верни финальную версию",
    expected_output="Вычитанный текст + список внесённых правок",
    agent=reviewer,
    context=[write_task],
)

content_crew = Crew(
    agents=[researcher, writer, reviewer],
    tasks=[research_task, write_task, review_task],
    process=Process.sequential,  # конвейер; для дирижёра — Process.hierarchical
)

result = content_crew.kickoff(inputs={"topic": "AI-агенты в логистике РФ"})
print(result)

Что важно на проде. Эта система не публикует сама — финальный материал уходит человеку на утверждение (human-in-the-loop перед executor). Она снимает 70-80% рутины: сбор фактов, черновик, первичная вычитка. Редактор перестаёт писать с нуля и начинает редактировать готовое, что втрое быстрее. Я честно говорю заказчикам: это не «отдел из нуля сотрудников», это «один редактор делает работу троих».

Кейс: AI-поддержка с эскалацией

Поддержка — классический случай для swarm-архитектуры с маршрутизацией. Входящий вопрос попадает на агента-диспетчера (triage), который определяет тему и передаёт управление профильному агенту: биллинг, технические вопросы, доставка, претензии. Каждый профильный агент имеет свою базу знаний и свои инструменты.

Критичный элемент — эскалация на человека. Агент обязан передавать диалог оператору в нескольких случаях: запрос содержит юридические или финансовые риски, клиент явно раздражён (анализ тональности), агент не уверен в ответе ниже порога уверенности, вопрос касается тем, прямо запрещённых для автономного ответа (возвраты крупных сумм, отмена договоров).

На практике правильная пропорция — агенты закрывают 60-75% типовых обращений полностью, ещё 10-15% готовят черновик ответа для оператора, остальное сразу к человеку. Попытка дотянуть автономность до 95% всегда заканчивается громкими провалами: один неверный ответ по деньгам или здоровью клиента стоит дороже, чем вся экономия на зарплате.

Связка с памятью: профильные агенты читают историю клиента (прошлые обращения, статус заказов, сегмент) из долгой памяти. Это превращает безличного бота в «сотрудника, который помнит клиента». Подробнее про память — в отдельной главе ниже.

Кейс: квалификация лидов и допродажи

В продажах multi-agent работает на стыке скорости и персонализации. Архитектура supervisor: оркестратор управляет тремя агентами.

Qualifier (квалификатор). Обрабатывает входящий лид: задаёт уточняющие вопросы, определяет бюджет, потребность, сроки, готовность к покупке. По методологии BANT или аналогичной скорит лид: горячий, тёплый, холодный. Холодных отправляет в nurturing, горячих — сразу на менеджера.

Enricher (обогатитель). Достаёт контекст по лиду из CRM и открытых данных компании: чем занимается клиент, какой размер бизнеса, что покупал раньше. Готовит менеджеру карточку «с кем он будет говорить».

Upsell-агент. Анализирует историю покупок существующих клиентов и формирует персональные предложения допродаж и кросс-продаж. Не спамит всех подряд, а предлагает то, что логично следует из прошлых покупок.

Где здесь обязателен человек: финальное предложение и закрытие сделки. Агенты квалифицируют, обогащают и готовят почву — но переговоры и принятие коммерческих условий остаются за менеджером. Я видел попытки «AI закрывает сделки сам», и они стабильно проваливались на нетиповых возражениях и торге. Зато агенты-помощники реально разгружают менеджера от рутины и повышают конверсию из лида в разговор за счёт мгновенной реакции.

Память агентов

Память — то, что превращает набор разовых вызовов LLM в систему «сотрудников», которые что-то помнят. В multi-agent системе различают три типа памяти, и путать их — частая ошибка.

Короткая память (контекст задачи). Это рабочая память внутри одного выполнения: что researcher нашёл, что writer написал. Живёт в стейте оркестратора, очищается после завершения задачи. В LangGraph это объект state, в CrewAI — context между задачами.

Долгая память (между сессиями). То, что система помнит о клиенте, проекте, истории взаимодействий через дни и недели. Хранится во внешнем хранилище — БД или vector store. Именно долгая память делает агента поддержки «узнающим» клиента.

Vector store (семантическая память и RAG). Знания, по которым агент ищет релевантное по смыслу, а не по ключевым словам. Корпоративная база, история диалогов, документы. В РФ-контуре это self-hosted решения: pgvector в PostgreSQL, Qdrant, Milvus, Weaviate — все ставятся на сервер в России.

Практический принцип: не пихайте всё в контекст модели. Короткая память — в стейте, долгая — в БД, знания — в vector store с извлечением по запросу. Агент подтягивает только релевантный фрагмент памяти под конкретный шаг. Это и дешевле по токенам, и точнее, потому что модель не тонет в нерелевантном контексте.

Инструменты агентов

Инструменты (tools) — то, чем агент действует во внешнем мире. В multi-agent системе важно правильно распределять инструменты по ролям: давать каждому агенту только то, что нужно для его мандата. Researcher не должен иметь доступ к executor-инструментам отправки и публикации.

Function calling. Базовый механизм: вы описываете функцию (имя, параметры, описание), модель решает, когда её вызвать, и формирует аргументы. Ваш код исполняет функцию и возвращает результат. Поддерживается YandexGPT, GigaChat и большинством self-hosted моделей через OpenAI-совместимый API.

MCP (Model Context Protocol). Стандарт 2025-2026 для подключения инструментов и источников данных к агентам единообразно. Вместо того чтобы под каждый агент писать обвязку к каждому API, вы поднимаете MCP-сервер для ресурса (БД, файлы, CRM), и любой агент подключается к нему по стандарту. Сильно упрощает масштабирование multi-agent систем — добавление нового инструмента не требует переписывать агентов.

Прямые API-вызовы. Для специфичных интеграций — обёртки над REST API ваших систем: CRM, биллинг, склад, 1С. Это и есть «руки» executor-агентов.

Ниже — пример агента-исполнителя с function calling: tool для записи в CRM. Обратите внимание на проверку перед действием — это паттерн безопасности для executor-агентов.

# Python — executor-агент с function calling (OpenAI-совместимый API)
import json
from openai import OpenAI

# Шлюз к модели в контуре РФ (YandexGPT/GigaChat/self-hosted)
client = OpenAI(base_url="https://llm.internal.ru/v1", api_key="...")

# Описание инструмента для модели
TOOLS = [{
    "type": "function",
    "function": {
        "name": "create_crm_lead",
        "description": "Создать карточку лида в CRM после квалификации",
        "parameters": {
            "type": "object",
            "properties": {
                "name": {"type": "string"},
                "phone": {"type": "string"},
                "score": {"type": "string", "enum": ["hot", "warm", "cold"]},
                "summary": {"type": "string", "description": "Суть потребности"},
            },
            "required": ["name", "phone", "score", "summary"],
        },
    },
}]

def create_crm_lead(name, phone, score, summary):
    """Реальная запись в CRM — это действие, меняющее состояние."""
    # ... вызов API вашей CRM ...
    return {"status": "created", "lead_id": "L-10472"}

def run_executor(dialog_summary: str, require_confirmation=True):
    messages = [
        {"role": "system", "content": "Ты квалифицируешь лид и сохраняешь в CRM."},
        {"role": "user", "content": dialog_summary},
    ]
    resp = client.chat.completions.create(
        model="local-qwen", messages=messages, tools=TOOLS, temperature=0.2
    )
    msg = resp.choices[0].message
    if not msg.tool_calls:
        return msg.content

    call = msg.tool_calls[0]
    args = json.loads(call.function.arguments)

    # Паттерн безопасности: executor не действует сам по «горячим» лидам —
    # сначала подтверждение человека (human-in-the-loop).
    if require_confirmation and args["score"] == "hot":
        return {"action": "create_crm_lead", "args": args, "needs_human": True}

    return create_crm_lead(**args)


if __name__ == "__main__":
    out = run_executor("Клиент Иван, +7..., нужен внедрённый AI-агент, бюджет есть")
    print(out)

Human-in-the-loop: где человек обязателен

Главный миф про «автономных сотрудников» — что они полностью автономны. На проде, который не взрывается, человек встроен в цикл в нескольких узловых точках. Это не недоработка, а сознательный дизайн.

Где человек обязателен:

  • Перед необратимыми действиями. Отправка денег, подписание документов, публикация снаружи, удаление данных, отмена заказов. Executor готовит действие — человек подтверждает.
  • На решениях с юридическими и финансовыми последствиями. Возвраты крупных сумм, изменение условий договора, ответы по медицинским/правовым темам.
  • При низкой уверенности. Если агент сам сигналит, что не уверен (ниже порога), задача уходит человеку, а не «авось угадает».
  • На эскалации конфликтов. Раздражённый клиент, нестандартная претензия — человек.

LangGraph хорош именно тем, что human-in-the-loop встроен на уровне фреймворка: граф останавливается на нужном узле, ждёт ввода человека, продолжает с того же места. Не нужно городить костыли с очередями и колбэками.

Я формулирую правило для заказчиков так: автоматизируйте подготовку решения на 100%, а принятие необратимого решения оставляйте человеку настолько, насколько высока цена ошибки. Чем дороже ошибка — тем ближе человек к спусковому крючку.

Надёжность, галлюцинации, guardrails

Multi-agent система надёжнее одиночного агента в одном смысле и опаснее в другом. Надёжнее — потому что reviewer ловит ошибки writer. Опаснее — потому что ошибка одного агента может каскадно распространиться по цепочке: researcher нашёл неверный факт, writer построил на нём текст, reviewer не заметил — и наружу ушла уверенная ложь.

Guardrails, которые я ставлю на каждом проекте:

  • Reviewer-агент как обязательный этап. Отдельный агент с единственной задачей — проверять. Не совмещайте его с writer, у проверки должен быть свежий взгляд и узкий мандат.
  • Валидация на выходе кода, а не модели. Структурированный вывод (JSON-схема, Pydantic-модели) проверяется вашим кодом. Если агент вернул мусор — повтор или эскалация, а не «отдать как есть».
  • Ограничение числа итераций. Если агенты гоняют задачу по кругу больше N раз — стоп и человек. Иначе вы получите бесконечный цикл «доработай — всё ещё не так» и счёт за токены.
  • Источники для фактов. Researcher обязан возвращать ссылки на источник. Reviewer проверяет, что утверждения writer опираются на найденные факты, а не на «знания модели».
  • Логирование каждого шага. В проде вы обязаны видеть, какой агент что сделал и почему. Без этого отладка multi-agent системы — гадание.

Честно про галлюцинации: они не исчезают в multi-agent системе, но reviewer + валидация на коде + требование источников снижают их до уровня, приемлемого для большинства бизнес-задач. Ноль галлюцинаций недостижим — поэтому необратимые действия и идут через человека.

Российский стек для multi-agent (152-ФЗ)

Ключевая мысль для российских проектов: оркестрация и модель разделены. Фреймворк (LangGraph, CrewAI) — это ваш код, он работает где угодно. А вот LLM, через которую идут персональные данные клиентов, должна соответствовать 152-ФЗ. Меняете эндпоинт модели — система остаётся той же.

Варианты моделей под российский контур:

  • YandexGPT. Облако в РФ, function calling, подходит под большинство задач координации и текста. Для работы с ПД — в рамках договора и согласий.
  • GigaChat (Сбер). Российская модель, function calling, корпоративные тарифы. Альтернатива/дополнение к YandexGPT.
  • Self-hosted Qwen / Llama. Открытые модели, развёрнутые на вашем сервере в РФ. Максимальный контроль над данными — ПД не покидают ваш периметр. Подходят для чувствительных контуров (медицина, финансы, госсектор). Нужны GPU-мощности и DevOps.
РешениеГде данныеКогда выбратьНюанс
YandexGPTоблако РФтиповые задачи, быстрый стартдоговор + согласия на обработку ПД
GigaChatоблако РФкорп. контур, экосистема Сберакорпоративные тарифы
Self-hosted Qwen/Llamaваш сервер в РФчувствительные ПД, госсекторнужны GPU и DevOps

Vector store и память тоже держим в РФ: pgvector, Qdrant, Milvus, Weaviate — self-hosted на серверах в России. Хостинг — российские провайдеры. Тогда multi-agent система целиком живёт в контуре, и обработка ПД соответствует закону. Базу по 152-ФЗ я разбирал в статье об аудите 152-ФЗ.

Стоимость токенов и внедрения

Главное, что нужно понять про экономику multi-agent: вы платите за каждый шаг каждого агента, и агенты ещё «переговариваются» между собой. Поэтому multi-agent дороже одиночного агента на ту же задачу в 3-8 раз по токенам. Это не баг, это природа подхода.

Откуда набегает цена. Один проход контент-пайплайна из 4 агентов с reviewer-циклом — это легко 10-20 вызовов LLM на один материал. Если каждый вызов работает с большим контекстом (факты, черновик, правки), токены складываются. Поэтому экономия на контексте через память и vector store — это напрямую экономия денег.

Тип системыТокены/месРазработкаКомментарий
Один агент с tools50-200 тыс. ₽ при объёме60-200 тыс. ₽база, см. предыдущую статью
Sequential 3-4 агентав 3-5 раз выше одиночного200-500 тыс. ₽контент-пайплайн, триаж
Supervisor / hierarchicalв 5-8 раз выше500 тыс. – 1,5 млн ₽отдел из нескольких функций
Self-hosted (Qwen/Llama)фикс. за GPU-сервер+ DevOps и инфравыгодно на большом объёме

Где экономика сходится. Multi-agent окупается, когда система реально замещает часы человеческого труда: редактор пишет втрое быстрее, поддержка закрывает 70% обращений, менеджер не тратит время на квалификацию холодных лидов. Если задача мелкая, токены съедят всю выгоду. Self-hosted Qwen/Llama выгоден на большом стабильном объёме: фиксированная стоимость GPU-сервера против переменной платы за токены облака.

Когда multi-agent НЕ нужен

Самый ценный совет в этой статье: в большинстве случаев multi-agent вам не нужен. Один хороший агент с правильными tools закрывает 80% реальных бизнес-задач. Multi-agent — это инструмент для оставшихся 20%, где сложность действительно требует разделения труда.

Признаки, что хватит одного агента:

  • Задача решается в один-три понятных шага.
  • Не требуется специализация — один контекст и один набор tools справляются.
  • Качество одиночного агента вас устраивает на тестах.
  • Нет нескольких разных «ролей» в процессе.

Признаки, что multi-agent оправдан:

  • Один агент с 10+ инструментами начал деградировать и путаться.
  • В процессе есть явно разные роли с разными требованиями (добыть → написать → проверить → опубликовать).
  • Нужен независимый контроль качества (reviewer).
  • Маршрутизация: вопрос надо отправить разным специалистам по теме.

Я регулярно отговариваю заказчиков от multi-agent, когда им хватит одного агента или вообще обычной автоматизации на n8n. Multi-agent «потому что модно» — это переплата за токены, усложнение отладки и больше точек отказа. Сложность должна быть оправдана задачей, а не хайпом.

Топ-5 ошибок при внедрении multi-agent

Ошибка 1: строят multi-agent там, где хватит одного агента. Самая частая. Результат — система в 5 раз дороже и в 3 раза сложнее в отладке, чем нужно. Лечится честным тестом одиночного агента до начала проектирования команды.

Ошибка 2: нет reviewer-агента. Без независимого контроля качества галлюцинации одного агента каскадно уходят наружу. Reviewer повышает надёжность сильнее, чем апгрейд модели, и стоит дешевле.

Ошибка 3: executor действует без человека на необратимых операциях. «Агент сам отправляет деньги/публикует/удаляет» — это инцидент, ожидающий своего часа. Human-in-the-loop перед необратимым действием обязателен.

Ошибка 4: всё пихают в контекст модели. Вместо короткой памяти в стейте, долгой в БД и знаний в vector store — гигантский промпт. Модель тонет в контексте, качество падает, токены растут. Разделяйте типы памяти.

Ошибка 5: нет логов и ограничения итераций. Multi-agent без пошагового логирования невозможно отлаживать, а без лимита итераций он зацикливается и жжёт бюджет. Логи и предохранители ставятся до прода, а не после первого инцидента.

FAQ

Чем multi-agent отличается от одного агента с множеством инструментов? Разделением контекста и специализацией. Один агент держит всё в одном окне модели и деградирует на сложности. Multi-agent даёт каждому агенту узкий чистый контекст — отсюда выше качество, но выше и цена.

Какой фреймворк выбрать для старта? CrewAI для быстрого прототипа и контент-задач, LangGraph для систем, которые пойдут в продакшен и требуют контроля состояния и human-in-the-loop.

Можно ли построить multi-agent на YandexGPT или GigaChat? Да. Фреймворк оркестрации не зависит от модели. Вы подключаете российскую модель через совместимый API, и система соответствует 152-ФЗ.

Насколько автономна такая система на самом деле? Подготовку решений автоматизируем близко к 100%, принятие необратимых решений оставляем человеку. Полностью автономных систем на критичных операциях в проде не бывает у тех, кто понимает риски.

Multi-agent заменит сотрудников? Чаще не заменяет, а множит производительность имеющихся. Один редактор делает работу троих, один оператор закрывает поток поддержки. Полная замена случается только на самой простой рутине.

Почему это так дорого по токенам? Каждый шаг каждого агента — вызов LLM, плюс агенты обмениваются результатами. На один результат набегает 10-20 вызовов. Экономия — через память и vector store вместо раздувания контекста.

Что делать с галлюцинациями в цепочке агентов? Reviewer-агент, требование источников от researcher, валидация структурированного вывода на коде и человек перед необратимыми действиями. Ноль недостижим, но до приемлемого уровня снижается.

Когда точно НЕ нужен multi-agent? Когда одиночный агент проходит ваши тесты по качеству. Не усложняйте без необходимости — это переплата и лишние точки отказа.

Чек-лист запуска multi-agent системы

Multi-agent — это следующий уровень после одиночных агентов, разобранных в базовой статье. Это переход от «AI-ассистента» к «AI-сотрудникам», которые вместе закрывают функцию отдела. Но это инструмент для сложных задач, а не для всех подряд.

Чек-лист перед запуском:

Шаг 1: проверьте, что одиночный агент не справляется. Соберите простого агента с tools и протестируйте. Если качество устраивает — остановитесь, multi-agent не нужен.

Шаг 2: спроектируйте роли как должностные инструкции. Кто researcher, кто writer, кто reviewer, кто executor. Узкий мандат и 2-4 инструмента на агента.

Шаг 3: выберите архитектуру. Supervisor или sequential для старта. Hierarchical и swarm — только когда упрётесь в потолок первых двух.

Шаг 4: выберите фреймворк и модель. CrewAI/LangGraph + YandexGPT/GigaChat/self-hosted под 152-ФЗ. Vector store и память — в контуре РФ.

Шаг 5: встройте reviewer и human-in-the-loop. Независимый контроль качества и человек перед необратимыми действиями — не опция, а обязательное условие прода.

Шаг 6: поставьте guardrails. Логи каждого шага, лимит итераций, валидация вывода на коде, требование источников. До прода, а не после инцидента.

Шаг 7: считайте экономику честно. Multi-agent оправдан там, где реально замещает часы человеческого труда. Если нет — вернитесь к одиночному агенту или автоматизации.

Multi-agent системы в 2026 — это уже не эксперимент, а рабочий инструмент для задач, где один агент захлёбывается. Главное — не строить их ради хайпа, а применять там, где разделение труда между специализированными агентами реально даёт качество, недостижимое в одиночку.

Услуги по теме

Что я делаю с AI-агентами

  • Multi-agent системы под ваши процессы
  • Оркестрация агентов (LangGraph, CrewAI)
  • Память и RAG на российском стеке
  • Guardrails и human-in-the-loop
  • Внедрение на YandexGPT/GigaChat (152-ФЗ)
Написать в Telegram

Нужен профессиональный аудит 152-ФЗ?

Отчёт за 1–3 дня, устранение нарушений под ключ. От 5 000 ₽.

Готовые решения под ключ 211 готовых IT-решений для бизнеса Автоматизация, боты, AI, 152-ФЗ и платформы · бесплатная консультация Смотреть каталог