Модуль ML для документов

Автоматическое распознавание (OCR) и классификация входящих документов с помощью машинного обучения, предзаполнение карточек документов.

Модуль ML для документов

Машинное обучение для автоматической обработки корпоративных документов: распознавание текста (OCR), классификация по типам и извлечение структурированных данных с помощью NLP — без ручного ввода.

Получить консультацию

Компании ежедневно получают сотни накладных, актов, договоров и счетов в виде сканов и PDF. Ручной ввод данных — это время, ошибки и расходы на операторов. Модуль машинного обучения для документов от 1integra автоматически распознаёт документ, определяет его тип, извлекает нужные реквизиты и передаёт данные в учётную систему. Точность распознавания достигает 97%, а стоимость обработки одного документа снижается в 10–15 раз.

Ключевые возможности

OCR высокой точности

Распознавание текста с отсканированных документов, фотографий и PDF. Поддержка кириллицы, латиницы, таблиц и рукописных пометок. Предобработка изображений для улучшения качества.

Классификация документов

Автоматическое определение типа документа: накладная, счёт-фактура, акт, договор, УПД, CMR и более 30 других типов. Модель дообучается на документах конкретной компании.

Извлечение реквизитов (NER)

NLP-модели извлекают номер, дату, контрагента, ИНН, суммы, позиции и другие реквизиты. Результат — структурированный JSON, готовый для передачи в 1С или ERP.

Верификация и контроль качества

Документы с низкой уверенностью модели направляются оператору для проверки. Интерфейс верификации показывает исходник и распознанные поля рядом.

Активное обучение

Каждая проверка оператора улучшает модель. Система накапливает исправления и периодически переобучается, повышая точность без участия разработчиков.

Интеграция с учётными системами

Готовые коннекторы для 1С:ERP, 1С:Бухгалтерия, SAP, Oracle. API для интеграции с любой системой. Поддержка очередей сообщений (RabbitMQ, Kafka) для высоких нагрузок.

97%

точность распознавания реквизитов

В 12 раз

дешевле ручного ввода данных

5 сек

среднее время обработки документа

30+

поддерживаемых типов документов

Подробное описание

Модуль построен на стеке современных ML-технологий: для OCR используется комбинация Tesseract и нейросетевых моделей на базе трансформеров, что обеспечивает высокое качество даже на документах низкого разрешения или с нестандартными шрифтами. Препроцессинг изображений включает автоматическое выравнивание (deskew), удаление шумов, повышение контрастности и бинаризацию.

Классификация документов выполняется ансамблем моделей: текстовый классификатор на BERT-подобной архитектуре и визуальный классификатор на основе CNN. Такой подход устойчив к случаям, когда текст ещё плохо распознан или макет документа нестандартный. Извлечение именованных сущностей (NER) обучено на размеченном корпусе из более чем 500 000 российских деловых документов.

Модуль разворачивается в Docker-контейнерах и работает как on-premise, так и в облаке заказчика. Все данные остаются в инфраструктуре клиента — никакие документы не передаются на внешние серверы. Это критично для компаний с требованиями к конфиденциальности данных.

Сравнение редакций

Функция	Стандарт	Профессиональная
OCR (печатный текст)	✓	✓
Классификация документов (базовые типы)	✓	✓
Извлечение реквизитов	До 10 полей	Неограниченно
Нагрузка	До 500 doc/день	Без ограничений
Дообучение на документах клиента	—	✓
OCR рукописного текста	—	✓
Активное обучение	—	✓
On-premise развёртывание	✓	✓

Важно: Все документы обрабатываются исключительно внутри инфраструктуры заказчика. Модуль не использует внешние облачные API для распознавания — ваши данные не покидают корпоративный периметр. Это соответствует требованиям 152-ФЗ и политикам информационной безопасности большинства крупных компаний.

Этапы внедрения

1
Аудит документооборота
Анализ типов документов, объёмов, источников поступления (email, сканер, портал поставщиков). Определение приоритетных сценариев автоматизации.
2
Сбор и разметка данных
Подготовка обучающей выборки из документов заказчика. Разметка реквизитов для дообучения моделей под специфику конкретного бизнеса.
3
Развёртывание и настройка
Установка модуля в инфраструктуре заказчика, настройка источников документов, конфигурация правил маршрутизации.
4
Обучение и дообучение моделей
Запуск обучения на данных клиента. Оценка точности на тестовой выборке. Итерационная доработка до достижения целевых метрик.
5
Интеграция с учётной системой
Настройка передачи извлечённых данных в 1С или ERP. Тестирование сценариев от поступления документа до создания проводки.
6
Запуск и мониторинг
Промышленная эксплуатация с дашбордом метрик: точность, объём обработки, доля документов на верификацию. Периодическое переобучение.

Стоимость

Стандарт

от 180 000 ₽

OCR печатного текста
Классификация базовых типов
До 10 извлекаемых полей
До 500 документов в день
On-premise развёртывание

Выбрать

Профессиональная

от 380 000 ₽

Всё из редакции Стандарт
Дообучение на документах клиента
Неограниченное количество полей
OCR рукописного текста
Активное обучение
Без ограничений по объёму

Выбрать

Часто задаваемые вопросы

Связанные решения для интеграции

Управление мастер-данными — обогащение НСИ с помощью ML
Агрегация данных — ML-пайплайны для ETL
Data Warehouse — хранение обработанных ML-данных

Какая точность распознавания у нестандартных документов?

После дообучения на документах конкретного контрагента или шаблона точность достигает 95–99%. На «холодных» документах (невиданных ранее шаблонах) базовая точность составляет 80–90%.

Работает ли модуль без интернета?

Да, модуль полностью автономен. После развёртывания и обучения он не требует подключения к интернету и работает целиком внутри корпоративной сети.

Сколько документов нужно для обучения?

Для нового типа документа достаточно 50–200 размеченных примеров. Чем больше образцов — тем выше точность. Базовые типы (накладная, счёт-фактура) уже предобучены и работают «из коробки».

Как обрабатываются многостраничные документы?

Модуль автоматически разбивает многостраничные PDF на логические документы, если в одном файле несколько актов или накладных. Каждый документ обрабатывается и регистрируется в системе отдельно.

Можно ли интегрировать с EDI-системой?

Да, модуль поддерживает получение документов через EDI-провайдеров (Synerdocs, Сфера, СБИС). В этом случае OCR не требуется — данные извлекаются напрямую из XML-структуры EDI-сообщения.

Готовы избавиться от ручного ввода документов?

Запросите демонстрацию — покажем работу модуля на образцах ваших документов. Бесплатно оценим точность распознавания и рассчитаем экономический эффект от внедрения.

Обсудить проект

Направления внедрения

1С

Документооборот

Электронный документооборот, согласование, маршруты, контроль исполнения

Нужно внедрить Модуль интеллектуальной обработки документов?

Расскажите о задаче — подготовим план внедрения и рассчитаем стоимость. Консультация бесплатно.

Обсудить внедрение

Связанные модули

Все модули →

Обсудите ваш проект

Расскажите, что нужно внедрить. Оценим сроки и стоимость за 2 рабочих дня.

Оставить заявку info@1integra.ru

Ответим в течение часа в рабочее время

Модуль ML для документов

Получить консультацию

Ключевые возможности

OCR высокой точности

Классификация документов

Извлечение реквизитов (NER)

Верификация и контроль качества

Активное обучение

Интеграция с учётными системами

97%

точность распознавания реквизитов

В 12 раз

дешевле ручного ввода данных

5 сек

среднее время обработки документа

30+

поддерживаемых типов документов

Подробное описание

Сравнение редакций

Функция	Стандарт	Профессиональная
OCR (печатный текст)	✓	✓
Классификация документов (базовые типы)	✓	✓
Извлечение реквизитов	До 10 полей	Неограниченно
Нагрузка	До 500 doc/день	Без ограничений
Дообучение на документах клиента	—	✓
OCR рукописного текста	—	✓
Активное обучение	—	✓
On-premise развёртывание	✓	✓

Этапы внедрения

1
Аудит документооборота
Анализ типов документов, объёмов, источников поступления (email, сканер, портал поставщиков). Определение приоритетных сценариев автоматизации.
2
Сбор и разметка данных
Подготовка обучающей выборки из документов заказчика. Разметка реквизитов для дообучения моделей под специфику конкретного бизнеса.
3
Развёртывание и настройка
Установка модуля в инфраструктуре заказчика, настройка источников документов, конфигурация правил маршрутизации.
4
Обучение и дообучение моделей
Запуск обучения на данных клиента. Оценка точности на тестовой выборке. Итерационная доработка до достижения целевых метрик.
5
Интеграция с учётной системой
Настройка передачи извлечённых данных в 1С или ERP. Тестирование сценариев от поступления документа до создания проводки.
6
Запуск и мониторинг
Промышленная эксплуатация с дашбордом метрик: точность, объём обработки, доля документов на верификацию. Периодическое переобучение.

Стоимость

Стандарт

от 180 000 ₽

OCR печатного текста
Классификация базовых типов
До 10 извлекаемых полей
До 500 документов в день
On-premise развёртывание

Выбрать

Профессиональная

от 380 000 ₽

Всё из редакции Стандарт
Дообучение на документах клиента
Неограниченное количество полей
OCR рукописного текста
Активное обучение
Без ограничений по объёму

Выбрать

Часто задаваемые вопросы

Связанные решения для интеграции

Управление мастер-данными — обогащение НСИ с помощью ML
Агрегация данных — ML-пайплайны для ETL
Data Warehouse — хранение обработанных ML-данных

Какая точность распознавания у нестандартных документов?

Работает ли модуль без интернета?

Сколько документов нужно для обучения?

Как обрабатываются многостраничные документы?

Можно ли интегрировать с EDI-системой?

Готовы избавиться от ручного ввода документов?

Обсудить проект

Модуль ML для документов

Модуль ML для документов

Ключевые возможности

Подробное описание

Сравнение редакций

Этапы внедрения

Стоимость

Часто задаваемые вопросы

Связанные решения для интеграции

Готовы избавиться от ручного ввода документов?

Направления внедрения

Нужно внедрить Модуль интеллектуальной обработки документов?

Связанные модули

Модуль ЭДО (электронный документооборот)

Модуль EDI (электронный обмен данными)

1С:Документооборот ПРОФ

1С:Документооборот КОРП

1С:Документооборот государственного учреждения

Модуль согласования договоров

Обсудите ваш проект

Модуль ML для документов

Модуль ML для документов

Ключевые возможности

Подробное описание

Сравнение редакций

Этапы внедрения

Стоимость

Часто задаваемые вопросы

Связанные решения для интеграции

Готовы избавиться от ручного ввода документов?

Направления внедрения

Нужно внедрить Модуль интеллектуальной обработки документов?

Связанные модули

Модуль ЭДО (электронный документооборот)

Модуль EDI (электронный обмен данными)

1С:Документооборот ПРОФ

1С:Документооборот КОРП

1С:Документооборот государственного учреждения

Модуль согласования договоров

Обсудите ваш проект