AI-оцифровка старомонгольской и бурятской письменности
Нейросеть распознаёт и переводит в текст старомонгольское вертикальное письмо со сканов и рукописей. Архивы и старые книги становятся доступны и не теряются со временем.
Знакомо?
- Старомонгольское вертикальное письмо знают всё меньше людей, и рукописи рискуют остаться непрочитанными вместе с уходом знатоков.
- Архивы, старые книги и семейные рукописи лежат в коробках и фондах, к ним нет ни поиска, ни оцифрованного текста.
- Наследие физически ветшает: бумага желтеет, чернила выцветают, а копий и расшифровок не существует.
- Без цифровых инструментов невозможно ни найти нужный фрагмент, ни передать письменность молодому поколению исследователей.
Как сейчас и как будет
| Сейчас, без решения | С решением |
|---|---|
| Рукопись на старомонгольском может прочесть лишь несколько знатоков. | Текст распознаётся в цифру и становится доступен для чтения и изучения. |
| Поиск нужного места в старой книге занимает дни перелистывания. | По оцифрованному тексту нужный фрагмент находится за секунды. |
| Сканы лежат как картинки, без текста и без поиска. | Сканы превращаются в текст, по которому можно искать и цитировать. |
| Ветхие страницы разрушаются от каждого прикосновения. | Оригиналы реже трогают, потому что работа идёт с цифровыми копиями. |
| Архив не индексирован, и о части материалов попросту забыли. | Архив описан и проиндексирован, видно, что и где хранится. |
Что вы получите на руки
- Распознавание вертикального старомонгольского и бурятского письма со сканов и фотографий.
- Перевод изображений рукописей и страниц в редактируемый текст средствами OCR.
- Обработка рукописного письма с учётом особенностей почерков и состояния бумаги.
- Структурирование и индексация архивов, старых книг и подшивок для поиска.
- Выверка распознанного текста вместе со специалистами для повышения точности.
- Хранилище оцифрованных материалов с поиском по содержанию и описанием единиц.
Результат для бизнеса
- Как правило, ранее нечитаемые рукописи становятся доступными для исследователей и потомков.
- Обычно поиск по архиву ускоряется в разы, ведь работать можно с текстом, а не с картинками.
- Как правило, оригиналы сохраняются дольше, потому что чаще используют цифровые копии.
- Обычно даже забытые части фондов снова попадают в научный и культурный оборот.
Почему со мной
Я Чимитдоржи Дарижапов, более 16 лет в IT, специализируюсь на AI и ML, развиваю этнотех-проект «Вселенная бурят». Работаю на российском стеке с соблюдением 152-ФЗ, начинаю с небольшого пилота, чтобы вы убедились в точности распознавания без больших вложений. Права и данные остаются у вас и хранителей наследия, к рукописям и архивам отношусь с уважением и выверяю результат вместе со специалистами. Форм на сайте нет, пишите напрямую в Telegram, MAX, VK или звоните, веду проект лично.
А если…
Это дорого, где взять бюджет?
Начинаем с пилота на небольшой партии страниц, который показывает реальную точность распознавания при скромных затратах. Оцифровка архивов и наследия часто поддерживается грантами на культуру, музейными и архивными программами, и я помогаю описать проект под такую заявку.
У нас есть специалисты, мы расшифруем сами.
Ручная расшифровка незаменима для сложных мест, но на тысячах страниц она занимает годы. AI берёт на себя массовое распознавание, а специалисты выверяют результат, и так наследие оцифровывается несоизмеримо быстрее.
Сколько времени это займёт?
Пилот на нескольких страницах обычно готов за пару недель и сразу показывает реалистичную точность. Объём всего архива оцениваем после пилота и движемся партиями, чтобы результат был виден постоянно.
Кому принадлежат оцифрованные материалы?
Все сканы, распознанный текст и описания остаются у вас и хранителей фонда. Работаю на российском стеке с соблюдением 152-ФЗ, при работе с личными и семейными документами соблюдаю конфиденциальность, распорядителем материалов остаётесь вы.
Как мы работаем
Смотрим образцы рукописей и сканов, оцениваем сложность почерков и состояние материалов, делаем пробное распознавание на нескольких страницах.
Настраиваем модели OCR под вертикальное письмо и конкретные почерки, прогоняем тестовую партию, вместе со специалистами выверяем результат.
Обрабатываем основной массив сканов, переводим в текст, описываем и индексируем единицы хранения для удобного поиска.
Передаём оцифрованный архив и поиск, обучаем сотрудников добавлять новые материалы, договариваемся о дальнейшем сопровождении.
Частые вопросы
Насколько точно распознаётся старое вертикальное письмо?
Точность зависит от состояния бумаги и почерка, поэтому начинаем с пилота, чтобы оценить её честно. Сложные места всегда выверяются специалистами, а модели дообучаются на ваших материалах.
Работает ли распознавание с рукописями, а не только с печатью?
Да, мы настраиваем распознавание и под рукописные почерки, хотя они требуют большей выверки. Каждый новый почерк добавляет работы, и это учитываем в плане.
Что нужно от нас для начала?
Достаточно нескольких качественных сканов или фотографий образцов для пилота. По ним мы оценим сложность и предложим план оцифровки всего массива.
Связанные услуги и статьи
Обсудим задачу в нише «Оцифровка письменности»?
Бесплатная консультация — это 20–30 минут разговора: разберём вашу ситуацию, я скажу, что реально стоит делать (иногда — что делать пока не нужно), назову срок и точную цену под вас. Ни к чему не обязывает. Без форм — пишите или звоните напрямую.