Модуль ML для документов

Машинное обучение для автоматической обработки корпоративных документов: распознавание текста (OCR), классификация по типам и извлечение структурированных данных с помощью NLP — без ручного ввода.

Получить консультацию

Компании ежедневно получают сотни накладных, актов, договоров и счетов в виде сканов и PDF. Ручной ввод данных — это время, ошибки и расходы на операторов. Модуль машинного обучения для документов от 1integra автоматически распознаёт документ, определяет его тип, извлекает нужные реквизиты и передаёт данные в учётную систему. Точность распознавания достигает 97%, а стоимость обработки одного документа снижается в 10–15 раз.

Ключевые возможности

01
OCR высокой точности

Распознавание текста с отсканированных документов, фотографий и PDF. Поддержка кириллицы, латиницы, таблиц и рукописных пометок. Предобработка изображений для улучшения качества.

02
Классификация документов

Автоматическое определение типа документа: накладная, счёт-фактура, акт, договор, УПД, CMR и более 30 других типов. Модель дообучается на документах конкретной компании.

03
Извлечение реквизитов (NER)

NLP-модели извлекают номер, дату, контрагента, ИНН, суммы, позиции и другие реквизиты. Результат — структурированный JSON, готовый для передачи в 1С или ERP.

04
Верификация и контроль качества

Документы с низкой уверенностью модели направляются оператору для проверки. Интерфейс верификации показывает исходник и распознанные поля рядом.

05
Активное обучение

Каждая проверка оператора улучшает модель. Система накапливает исправления и периодически переобучается, повышая точность без участия разработчиков.

06
Интеграция с учётными системами

Готовые коннекторы для 1С:ERP, 1С:Бухгалтерия, SAP, Oracle. API для интеграции с любой системой. Поддержка очередей сообщений (RabbitMQ, Kafka) для высоких нагрузок.

97%
точность распознавания реквизитов
В 12 раз
дешевле ручного ввода данных
5 сек
среднее время обработки документа
30+
поддерживаемых типов документов

Подробное описание

Модуль построен на стеке современных ML-технологий: для OCR используется комбинация Tesseract и нейросетевых моделей на базе трансформеров, что обеспечивает высокое качество даже на документах низкого разрешения или с нестандартными шрифтами. Препроцессинг изображений включает автоматическое выравнивание (deskew), удаление шумов, повышение контрастности и бинаризацию.

Классификация документов выполняется ансамблем моделей: текстовый классификатор на BERT-подобной архитектуре и визуальный классификатор на основе CNN. Такой подход устойчив к случаям, когда текст ещё плохо распознан или макет документа нестандартный. Извлечение именованных сущностей (NER) обучено на размеченном корпусе из более чем 500 000 российских деловых документов.

Модуль разворачивается в Docker-контейнерах и работает как on-premise, так и в облаке заказчика. Все данные остаются в инфраструктуре клиента — никакие документы не передаются на внешние серверы. Это критично для компаний с требованиями к конфиденциальности данных.

Сравнение редакций

ФункцияСтандартПрофессиональная
OCR (печатный текст)
Классификация документов (базовые типы)
Извлечение реквизитовДо 10 полейНеограниченно
НагрузкаДо 500 doc/деньБез ограничений
Дообучение на документах клиента
OCR рукописного текста
Активное обучение
On-premise развёртывание
Важно: Все документы обрабатываются исключительно внутри инфраструктуры заказчика. Модуль не использует внешние облачные API для распознавания — ваши данные не покидают корпоративный периметр. Это соответствует требованиям 152-ФЗ и политикам информационной безопасности большинства крупных компаний.

Этапы внедрения

  1. 1
    Аудит документооборота

    Анализ типов документов, объёмов, источников поступления (email, сканер, портал поставщиков). Определение приоритетных сценариев автоматизации.

  2. 2
    Сбор и разметка данных

    Подготовка обучающей выборки из документов заказчика. Разметка реквизитов для дообучения моделей под специфику конкретного бизнеса.

  3. 3
    Развёртывание и настройка

    Установка модуля в инфраструктуре заказчика, настройка источников документов, конфигурация правил маршрутизации.

  4. 4
    Обучение и дообучение моделей

    Запуск обучения на данных клиента. Оценка точности на тестовой выборке. Итерационная доработка до достижения целевых метрик.

  5. 5
    Интеграция с учётной системой

    Настройка передачи извлечённых данных в 1С или ERP. Тестирование сценариев от поступления документа до создания проводки.

  6. 6
    Запуск и мониторинг

    Промышленная эксплуатация с дашбордом метрик: точность, объём обработки, доля документов на верификацию. Периодическое переобучение.

Стоимость

Стандарт
от 180 000 ₽
  • OCR печатного текста
  • Классификация базовых типов
  • До 10 извлекаемых полей
  • До 500 документов в день
  • On-premise развёртывание
Выбрать
Профессиональная
от 380 000 ₽
  • Всё из редакции Стандарт
  • Дообучение на документах клиента
  • Неограниченное количество полей
  • OCR рукописного текста
  • Активное обучение
  • Без ограничений по объёму
Выбрать

Часто задаваемые вопросы

Связанные решения для интеграции

Какая точность распознавания у нестандартных документов?
После дообучения на документах конкретного контрагента или шаблона точность достигает 95–99%. На «холодных» документах (невиданных ранее шаблонах) базовая точность составляет 80–90%.
Работает ли модуль без интернета?
Да, модуль полностью автономен. После развёртывания и обучения он не требует подключения к интернету и работает целиком внутри корпоративной сети.
Сколько документов нужно для обучения?
Для нового типа документа достаточно 50–200 размеченных примеров. Чем больше образцов — тем выше точность. Базовые типы (накладная, счёт-фактура) уже предобучены и работают «из коробки».
Как обрабатываются многостраничные документы?
Модуль автоматически разбивает многостраничные PDF на логические документы, если в одном файле несколько актов или накладных. Каждый документ обрабатывается и регистрируется в системе отдельно.
Можно ли интегрировать с EDI-системой?
Да, модуль поддерживает получение документов через EDI-провайдеров (Synerdocs, Сфера, СБИС). В этом случае OCR не требуется — данные извлекаются напрямую из XML-структуры EDI-сообщения.

Готовы избавиться от ручного ввода документов?

Запросите демонстрацию — покажем работу модуля на образцах ваших документов. Бесплатно оценим точность распознавания и рассчитаем экономический эффект от внедрения.

Обсудить проект