Оцифровка письменности

AI-оцифровка старомонгольской и бурятской письменности

Нейросеть распознаёт и переводит в текст старомонгольское вертикальное письмо со сканов и рукописей. Архивы и старые книги становятся доступны и не теряются со временем.

Бесплатная консультация Срок: MVP за 8–12 недель

Знакомо?

  • Старомонгольское вертикальное письмо знают всё меньше людей, и рукописи рискуют остаться непрочитанными вместе с уходом знатоков.
  • Архивы, старые книги и семейные рукописи лежат в коробках и фондах, к ним нет ни поиска, ни оцифрованного текста.
  • Наследие физически ветшает: бумага желтеет, чернила выцветают, а копий и расшифровок не существует.
  • Без цифровых инструментов невозможно ни найти нужный фрагмент, ни передать письменность молодому поколению исследователей.

Как сейчас и как будет

Сейчас, без решенияС решением
Рукопись на старомонгольском может прочесть лишь несколько знатоков.Текст распознаётся в цифру и становится доступен для чтения и изучения.
Поиск нужного места в старой книге занимает дни перелистывания.По оцифрованному тексту нужный фрагмент находится за секунды.
Сканы лежат как картинки, без текста и без поиска.Сканы превращаются в текст, по которому можно искать и цитировать.
Ветхие страницы разрушаются от каждого прикосновения.Оригиналы реже трогают, потому что работа идёт с цифровыми копиями.
Архив не индексирован, и о части материалов попросту забыли.Архив описан и проиндексирован, видно, что и где хранится.

Что вы получите на руки

  • Распознавание вертикального старомонгольского и бурятского письма со сканов и фотографий.
  • Перевод изображений рукописей и страниц в редактируемый текст средствами OCR.
  • Обработка рукописного письма с учётом особенностей почерков и состояния бумаги.
  • Структурирование и индексация архивов, старых книг и подшивок для поиска.
  • Выверка распознанного текста вместе со специалистами для повышения точности.
  • Хранилище оцифрованных материалов с поиском по содержанию и описанием единиц.

Результат для бизнеса

  • Как правило, ранее нечитаемые рукописи становятся доступными для исследователей и потомков.
  • Обычно поиск по архиву ускоряется в разы, ведь работать можно с текстом, а не с картинками.
  • Как правило, оригиналы сохраняются дольше, потому что чаще используют цифровые копии.
  • Обычно даже забытые части фондов снова попадают в научный и культурный оборот.

Почему со мной

Я Чимитдоржи Дарижапов, более 16 лет в IT, специализируюсь на AI и ML, развиваю этнотех-проект «Вселенная бурят». Работаю на российском стеке с соблюдением 152-ФЗ, начинаю с небольшого пилота, чтобы вы убедились в точности распознавания без больших вложений. Права и данные остаются у вас и хранителей наследия, к рукописям и архивам отношусь с уважением и выверяю результат вместе со специалистами. Форм на сайте нет, пишите напрямую в Telegram, MAX, VK или звоните, веду проект лично.

А если…

Это дорого, где взять бюджет?

Начинаем с пилота на небольшой партии страниц, который показывает реальную точность распознавания при скромных затратах. Оцифровка архивов и наследия часто поддерживается грантами на культуру, музейными и архивными программами, и я помогаю описать проект под такую заявку.

У нас есть специалисты, мы расшифруем сами.

Ручная расшифровка незаменима для сложных мест, но на тысячах страниц она занимает годы. AI берёт на себя массовое распознавание, а специалисты выверяют результат, и так наследие оцифровывается несоизмеримо быстрее.

Сколько времени это займёт?

Пилот на нескольких страницах обычно готов за пару недель и сразу показывает реалистичную точность. Объём всего архива оцениваем после пилота и движемся партиями, чтобы результат был виден постоянно.

Кому принадлежат оцифрованные материалы?

Все сканы, распознанный текст и описания остаются у вас и хранителей фонда. Работаю на российском стеке с соблюдением 152-ФЗ, при работе с личными и семейными документами соблюдаю конфиденциальность, распорядителем материалов остаётесь вы.

Как мы работаем

1
Знакомство и пилот (1-2 недели)

Смотрим образцы рукописей и сканов, оцениваем сложность почерков и состояние материалов, делаем пробное распознавание на нескольких страницах.

2
Настройка распознавания (3-4 недели)

Настраиваем модели OCR под вертикальное письмо и конкретные почерки, прогоняем тестовую партию, вместе со специалистами выверяем результат.

3
Оцифровка и индексация (3-4 недели)

Обрабатываем основной массив сканов, переводим в текст, описываем и индексируем единицы хранения для удобного поиска.

4
Передача и обучение (1-2 недели)

Передаём оцифрованный архив и поиск, обучаем сотрудников добавлять новые материалы, договариваемся о дальнейшем сопровождении.

Частые вопросы

Насколько точно распознаётся старое вертикальное письмо?

Точность зависит от состояния бумаги и почерка, поэтому начинаем с пилота, чтобы оценить её честно. Сложные места всегда выверяются специалистами, а модели дообучаются на ваших материалах.

Работает ли распознавание с рукописями, а не только с печатью?

Да, мы настраиваем распознавание и под рукописные почерки, хотя они требуют большей выверки. Каждый новый почерк добавляет работы, и это учитываем в плане.

Что нужно от нас для начала?

Достаточно нескольких качественных сканов или фотографий образцов для пилота. По ним мы оценим сложность и предложим план оцифровки всего массива.

Обсудим задачу в нише «Оцифровка письменности»?

Бесплатная консультация — это 20–30 минут разговора: разберём вашу ситуацию, я скажу, что реально стоит делать (иногда — что делать пока не нужно), назову срок и точную цену под вас. Ни к чему не обязывает. Без форм — пишите или звоните напрямую.