Open-source и свой сервер 9 мин чтения

Khoj: свой ИИ-ассистент по документам компании на своём сервере

Khoj отвечает на вопросы по документам вашей компании (PDF, Word, заметки, Notion) и держит данные у вас, а не в чужом облаке. Свой ИИ-ассистент по базе знаний без утечки. Разбираю, как это работает и кому нужно.

KhojИИ-ассистентбаза знанийRAGopen-source

Коротко (TL;DR)

  • Khoj — это open-source ИИ-ассистент («второй мозг»), который умеет отвечать на вопросы по вашим документам, заметкам и базе знаний на естественном языке.
  • Главная ценность — приватность: документы и переписка не уходят в чужой облачный ИИ-сервис, всё остаётся на вашем сервере, что важно для соблюдения 152-ФЗ.
  • Работает и с локальными моделями через Ollama, и с API российских сервисов (GigaChat, YandexGPT) или внешних — на ваш выбор.
  • Заменяет платные облачные ИИ-ассистенты, в которые опасно загружать договоры, регламенты и клиентские данные.
  • Я разворачиваю Khoj под ключ: сервер, модель, подключение ваших документов и поддержка с учётом приватности.

У многих компаний накопились горы документов: договоры, регламенты, инструкции, базы знаний, заметки, переписка. Найти в этом нужный пункт — отдельная работа, а держать всё в голове невозможно. Облачные ИИ-ассистенты решают задачу, но загружать в чужой сервис конфиденциальные документы рискованно. Khoj даёт другой путь: это ИИ-ассистент, который работает поверх ваших данных на вашем сервере, отвечает на вопросы по документам и не выносит ни строчки наружу. Ниже разберу простыми словами, что это за инструмент, что он умеет, кому подходит и что нужно для запуска.

Что это и что заменяет

Khoj — это бесплатный open-source ИИ-ассистент, который часто называют «вторым мозгом» компании. Его суть проста: вы подключаете к нему свои документы и заметки, а дальше задаёте вопросы обычным человеческим языком и получаете ответы по содержанию этих документов — со ссылкой на источник, из которого взята информация.

Под капотом работает подход, который специалисты называют RAG (retrieval-augmented generation — «генерация ответа с опорой на поиск»). Если объяснять простыми словами: ассистент сначала находит в ваших документах подходящие фрагменты, а потом формулирует по ним связный ответ. Поэтому он отвечает не «из головы» нейросети, а на основе именно ваших файлов, и может показать, откуда взял информацию. Это снижает риск выдумок и позволяет проверить ответ.

Что Khoj заменяет. По задачам он закрывает то, ради чего бизнес идёт в платные облачные ИИ-ассистенты: загрузить документы и спрашивать по ним. Разница в том, что облачный сервис хранит ваши файлы на чужих серверах за пределами компании и берёт абонентскую плату за пользователей. Khoj же ставится на ваш сервер, документы остаются внутри вашего контура, а инструмент сам по себе бесплатен. Вы платите за железо и настройку, а не за подписку на каждого сотрудника.

Что умеет

Khoj — это не «волшебная кнопка», а рабочий инструмент с понятным набором возможностей. В общем виде он умеет следующее:

  • Отвечать на вопросы по вашей базе знаний. Вы спрашиваете «что написано в регламенте о возврате» или «какие условия в договоре с этим поставщиком» — и получаете ответ по содержанию ваших документов.
  • Семантический поиск. Это поиск по смыслу, а не по точному совпадению слов. Даже если в документе нет ровно тех слов, что в запросе, ассистент найдёт подходящий фрагмент по смыслу.
  • Показывать источник. К ответу прилагается ссылка на документ, из которого взята информация, — можно открыть и проверить.
  • Работать с разными форматами. PDF, Word, обычные текстовые файлы и заметки в формате Markdown, а также данные из Notion и Obsidian, рабочая почта (email) — в зависимости от того, что вы подключите.
  • Удобный веб-интерфейс и чат. Сотрудник заходит через браузер и общается с ассистентом как с чатом, без технических сложностей.
  • Агенты и автоматические сводки. Можно настроить помощников под конкретные роли и регулярные задачи — например, периодически собирать сводку по нужной теме.
  • Интеграции. Khoj можно подключить к вашим инструментам и каналам, чтобы ассистент был там, где работают сотрудники.

На практике это выглядит как конкретные сценарии. Юридическая фирма подключает к Khoj архив договоров и нормативку: юрист спрашивает по конкретному пункту и сразу видит, в каком документе он прописан. Консалтинговое агентство загружает накопленные отчёты и методички, чтобы новый сотрудник находил готовые наработки за секунды, а не перелопачивал папки. Компания с большой технической документацией поднимает помощника, который отвечает на вопросы по инструкциям, не вынося их во внешний сервис. Ценность не в «умном ИИ» как таковом, а в том, что знания компании становятся доступными по запросу, а данные при этом остаются внутри.

Кому подходит

Khoj раскрывается там, где есть большой объём документов и важна приватность. Типичные ситуации:

  • Юристы и юридические отделы. Договоры, нормативка, судебная практика — большой массив текста, по которому постоянно нужно искать и сверяться, и который нельзя выносить наружу.
  • Консультанты и эксперты. Накопленная база отчётов, методик и наработок, которую хочется быстро поднимать по запросу.
  • Агентства и студии. Брифы, регламенты, база проектов и клиентских материалов — чтобы команда не задавала одни и те же вопросы по кругу.
  • Компании с большой базой документов. Производство, проектные и инженерные организации, медицина, финансы — везде, где документация измеряется сотнями файлов.
  • Любая команда с внутренней базой знаний. Если у вас есть регламенты, инструкции и заметки, которые сотрудники должны быстро находить, не выходя за пределы компании.

Объединяет эти случаи одно: есть много текста, по которому регулярно ищут ответы, и есть данные, которые принципиально не должны покидать компанию. Именно на стыке этих двух условий собственный ИИ-ассистент окупается быстрее всего.

Если же документов немного, поиск по ним не отнимает время, или вы не работаете с конфиденциальной информацией, то разворачивать собственный сервер часто избыточно. Я честно скажу, если в вашем случае проще обойтись готовым решением.

Что нужно для запуска

Чтобы Khoj работал стабильно и быстро, нужны три вещи: сервер с подходящими ресурсами, модель для ответов и корректная настройка с подключением ваших документов.

Сервер или VPS. Khoj разворачивается через Docker (инструмент упаковки и запуска приложений в изолированных контейнерах) — это упрощает установку и обновления. Сервер может стоять у российского хостера или прямо в вашей инфраструктуре. Конкретные требования зависят от объёма документов и нагрузки, поэтому я не называю «магические» цифры заранее: сначала смотрим на задачу, потом подбираем конфигурацию.

Модель для ответов. Здесь есть выбор. Можно использовать локальную модель через Ollama — тогда вообще всё, включая саму нейросеть, работает на вашем сервере, без обращения к внешним сервисам. А можно подключить модель по API (программному интерфейсу) — например, российские GigaChat или YandexGPT, либо внешние сервисы. Локальный вариант максимально приватен, вариант с API — обычно быстрее и «умнее» при меньших требованиях к железу. Какой подход выбрать — зависит от ваших требований к приватности, скорости и бюджету.

Подключение документов и настройка. Установить движок — это только начало. Нужно подключить ваши источники (папки с файлами, Notion, Obsidian, почту), настроить индексацию, организовать безопасный доступ и проверить качество ответов на реальных вопросах. Это та часть, где обычно нужен специалист.

152-ФЗ и приватность. Главное преимущество локального развёртывания в том, что документы и персональные данные не уходят в чужой облачный ИИ. Сервер может находиться в России или прямо в вашей инфраструктуре, что упрощает соблюдение требований к обработке персональных данных по 152-ФЗ. При этом важно понимать: само по себе локальное размещение не делает систему «автоматически соответствующей закону» — нужно правильно организовать доступ, хранение и регламенты. Это решается на этапе внедрения, и я учитываю эти моменты при настройке. Если же вы выбираете вариант с внешним API, нужно отдельно оценить, какие данные уходят к провайдеру модели, — об этом я предупреждаю заранее.

Как внедрить под ключ

Запуск собственного ИИ-ассистента по документам — это проект, а не одна кнопка. Чтобы не утонуть в технических деталях, удобнее отдать его специалисту. Обычно я иду по такому маршруту:

  • Разбираемся в задаче. Какие документы подключаем, кто будет пользоваться, какие требования к приватности и какой выбираем подход к модели — локальный или через API.
  • Подбираем сервер и модель. Рассчитываю ресурсы под ваш объём документов и нагрузку, помогаю выбрать между локальной моделью и API под ваши требования к приватности и скорости.
  • Разворачиваю и подключаю данные. Устанавливаю Khoj через Docker, подключаю ваши источники документов, настраиваю индексацию, безопасный доступ и веб-интерфейс.
  • Проверяем на ваших вопросах. Тестируем на реальных запросах сотрудников, оцениваем качество ответов и корректность ссылок на источники, дорабатываем.
  • Сопровождаю дальше. Обновления, добавление новых документов, мониторинг и помощь при росте нагрузки — чтобы система оставалась рабочей, а не «настроили и забыли».

Я 16+ лет в IT и разворачиваю open-source-инструменты под ключ на российском стеке, с учётом приватности и 152-ФЗ. Если хотите свой ИИ-ассистент по документам без передачи данных в чужое облако — разверну Khoj на вашем сервере под ключ.

Частые вопросы

Это правда бесплатно? Сам инструмент Khoj — бесплатный и open-source. Платить нужно за сервер (своё железо или аренду) и за настройку с поддержкой. Если используете локальную модель через Ollama, то модель тоже бесплатна; если подключаете внешний API, у провайдера модели может быть своя оплата по запросам. Абонентской платы за каждого пользователя, как у облачных ИИ-ассистентов, нет.

Данные точно никуда не уходят? При полностью локальном развёртывании (Khoj плюс модель через Ollama) документы и запросы обрабатываются на вашем сервере и не передаются наружу. Если вы выбираете модель по внешнему API, то к провайдеру уходит текст запроса и нужные фрагменты — это мы обсуждаем заранее и решаете вы. Самый приватный вариант — полностью локальный.

Откуда ассистент берёт ответы — он не выдумывает? Khoj отвечает на основе именно ваших документов и показывает источник, из которого взята информация. Это заметно снижает риск выдумок по сравнению с обычным чат-ботом и позволяет проверить ответ. Но полностью исключить ошибки нельзя — ответы стоит перепроверять в важных случаях, и я честно об этом предупреждаю.

Какие форматы документов поддерживаются? PDF, Word, текстовые файлы, заметки в Markdown, данные из Notion и Obsidian, рабочая почта. Конкретный набор источников подбираем под то, что есть у вас.

Какой нужен сервер? Зависит от объёма документов и выбранной модели. Для варианта с внешним API требования к железу скромнее; для полностью локального варианта с моделью на сервере нужно больше ресурсов, иногда видеокарта. Точную конфигурацию я подбираю под вашу задачу.

Сколько времени занимает запуск? Базовое развёртывание с подключением документов обычно укладывается в несколько дней, а не недель. Дольше всего идёт не установка, а настройка под ваши задачи: подключение всех источников, проверка качества ответов на реальных вопросах и доводка. Точные сроки зависят от объёма данных и интеграций.

Коротко о главном

Khoj — это способ получить собственного ИИ-ассистента по документам и заметкам компании на своём сервере: с приватностью, без абонентской платы за пользователей и без передачи данных в чужой облачный ИИ. Он отвечает на вопросы по вашей базе знаний, ищет по смыслу и показывает источник ответа, а работать может как полностью локально через Ollama, так и с моделями по API. Это особенно ценно для юристов, консультантов, агентств и любых компаний с большим объёмом документов, которым важно соблюдать требования 152-ФЗ. Взамен нужны подходящий сервер, выбор модели и грамотная настройка — без громких обещаний и с честным разговором об ограничениях. Если идея собственного ИИ-ассистента вам близка, я помогу пройти путь от выбора модели до рабочей системы под ключ.

Где взять — Официальный репозиторий на GitHub: github.com/khoj-ai/khoj. Развернуть и настроить под ключ помогу — напишите в Telegram.

Ещё open-source для бизнеса

Эта статья — часть каталога бесплатных решений, которые я разворачиваю на вашем сервере под ключ: CRM, аналитика, документы, почта, безопасность, магазины, AI.

Услуги по теме

Что я делаю с open-source

  • Развёртывание на вашем сервере
  • Перенос данных из старого сервиса
  • Безопасность и 152-ФЗ
  • Настройка под ваши процессы
  • Поддержка и обновления
Написать в Telegram

Готовы обсудить вашу задачу?

Бесплатная консультация — разберём, как внедрить это в вашем бизнесе под ключ. Без форм, пишите напрямую.

Готовые решения под ключ 449 готовых IT-решений для бизнеса Автоматизация, боты, AI, 152-ФЗ и платформы · бесплатная консультация Смотреть каталог