Buryat GPT — языковая модель на бурятском
Своя нейросеть, которая пишет, отвечает, переводит и генерит контент на бурятском — фундамент для всех остальных инструментов языка. Цифровое будущее родной речи на российском стеке.
Знакомо?
- Бурятский язык внесён в группу под угрозой исчезновения, а цифровых инструментов для него почти нет.
- У бурятского нет своей языковой модели — фундамента, на котором строятся словари, переводчики и ассистенты.
- Корпус текстов разрознен: книги, периодика, фольклор лежат в разных местах и не собраны для машинного обучения.
- Молодёжь живёт в цифре, и без современных языковых сервисов язык всё реже звучит в повседневной жизни.
Как сейчас и как будет
| Сейчас, без решения | С решением |
|---|---|
| Нет ни одной языковой модели, понимающей бурятский. | Есть рабочее ядро, которое генерирует и обрабатывает текст на бурятском. |
| Корпус текстов рассыпан по архивам и форматам. | Собран и размечен единый обучающий корпус с понятным происхождением источников. |
| Перевод и подсказки делаются вручную энтузиастами. | Базовые задачи перевода и подсказок берёт на себя модель, освобождая время знатоков. |
| Каждый новый языковой сервис пишется с нуля. | Словари, переводчики и ассистенты опираются на общий фундамент модели. |
| Цифровое присутствие языка близко к нулю. | Появляется живой технологический задел, который можно развивать этапами. |
Что вы получите на руки
- Собранный и очищенный корпус бурятских текстов с фиксацией источников и прав.
- Обученное или дообученное языковое ядро для генерации и обработки текста на бурятском.
- API для встраивания модели в словари, переводчики и ассистентов.
- Демонстрационный интерфейс: генерация текста, ответы на вопросы, черновой перевод.
- Документация по архитектуре, ограничениям модели и сценариям применения.
- План дообучения и развития корпуса для следующих этапов проекта.
Результат для бизнеса
- Обычно появляется работающее языковое ядро, на которое можно опереть последующие сервисы.
- Как правило, базовые задачи генерации и чернового перевода удаётся автоматизировать уже на пилоте.
- Сообщество чаще всего получает понятный и развиваемый цифровой задел для языка.
- Как правило, дальнейшие словари и переводчики строятся быстрее за счёт общего фундамента.
Почему со мной
Я Чимитдоржи Дарижапов, более 16 лет в IT, специализируюсь на AI и ML, развиваю этнотех-проект «Вселенная бурят». Работаю на российском AI-стеке (GigaChat, YandexGPT, открытые модели) с соблюдением 152-ФЗ. Начинаю с пилота, двигаемся этапами, без громких обещаний. Права на модель и данные остаются у сообщества. Делаю с уважением к традиции и сверяясь со знатоками языка. Форм на сайте нет, пишите напрямую в Telegram, MAX, VK или звоните, веду проект лично.
А если…
Это дорого, где взять бюджет?
Языковая модель — проект под гранты и партнёрства с фондами, республикой и вузами. Двигаемся этапами: сначала недорогой пилот на ограниченном корпусе, затем расширение по мере финансирования, поэтому большой бюджет не нужен сразу.
Это слишком сложно и амбициозно для нашего сообщества.
Мы не строим всё сразу. Начинаем с узкого пилота на открытой модели и небольшом корпусе, показываем рабочий результат и только потом масштабируем. Сложность раскладывается на понятные шаги.
Сколько времени это займёт?
Первый пилот со сбором корпуса — порядка трёх-четырёх недель, дальше движемся этапами. Точные сроки зависят от объёма доступных текстов и качества источников, поэтому фиксируем их после первого шага.
Чьи права на данные и модель, как с 152-ФЗ?
Права на корпус и обученную модель остаются у сообщества. Работаем на российском AI-стеке с соблюдением 152-ФЗ, источники текстов согласуем заранее, персональные данные в обучение не попадают.
Как мы работаем
Определяем приоритетные сценарии, собираем и согласуем первичный корпус, фиксируем права на тексты.
Дообучаем открытую модель на корпусе, проверяем качество на бурятских примерах, отсекаем явные ошибки.
Заворачиваем модель в API, делаем демонстрационный интерфейс для генерации, ответов и перевода.
Сверяемся с носителями и филологами, расширяем корпус, планируем следующие этапы дообучения.
Частые вопросы
Нужен ли уже готовый корпус текстов?
Нет. Сбор и подготовку корпуса я беру на себя как часть работы, а вы помогаете с доступом к источникам и их согласованием.
Будет ли модель работать офлайн?
Возможны разные варианты: облачное API или локальное развёртывание. Выбор зависит от задач и требований к приватности, обсуждаем на пилоте.
Можно ли потом сделать переводчик или ассистента?
Да, именно для этого и нужен фундамент. На базе ядра словари, переводчики и ассистенты строятся быстрее и единообразнее.
Связанные услуги и статьи
Обсудим задачу в нише «Buryat GPT»?
Бесплатная консультация — это 20–30 минут разговора: разберём вашу ситуацию, я скажу, что реально стоит делать (иногда — что делать пока не нужно), назову срок и точную цену под вас. Ни к чему не обязывает. Без форм — пишите или звоните напрямую.