Модуль ML для документов
Машинное обучение для автоматической обработки корпоративных документов: распознавание текста (OCR), классификация по типам и извлечение структурированных данных с помощью NLP — без ручного ввода.
Получить консультациюКомпании ежедневно получают сотни накладных, актов, договоров и счетов в виде сканов и PDF. Ручной ввод данных — это время, ошибки и расходы на операторов. Модуль машинного обучения для документов от 1integra автоматически распознаёт документ, определяет его тип, извлекает нужные реквизиты и передаёт данные в учётную систему. Точность распознавания достигает 97%, а стоимость обработки одного документа снижается в 10–15 раз.
Ключевые возможности
Распознавание текста с отсканированных документов, фотографий и PDF. Поддержка кириллицы, латиницы, таблиц и рукописных пометок. Предобработка изображений для улучшения качества.
Автоматическое определение типа документа: накладная, счёт-фактура, акт, договор, УПД, CMR и более 30 других типов. Модель дообучается на документах конкретной компании.
NLP-модели извлекают номер, дату, контрагента, ИНН, суммы, позиции и другие реквизиты. Результат — структурированный JSON, готовый для передачи в 1С или ERP.
Документы с низкой уверенностью модели направляются оператору для проверки. Интерфейс верификации показывает исходник и распознанные поля рядом.
Каждая проверка оператора улучшает модель. Система накапливает исправления и периодически переобучается, повышая точность без участия разработчиков.
Готовые коннекторы для 1С:ERP, 1С:Бухгалтерия, SAP, Oracle. API для интеграции с любой системой. Поддержка очередей сообщений (RabbitMQ, Kafka) для высоких нагрузок.
Подробное описание
Модуль построен на стеке современных ML-технологий: для OCR используется комбинация Tesseract и нейросетевых моделей на базе трансформеров, что обеспечивает высокое качество даже на документах низкого разрешения или с нестандартными шрифтами. Препроцессинг изображений включает автоматическое выравнивание (deskew), удаление шумов, повышение контрастности и бинаризацию.
Классификация документов выполняется ансамблем моделей: текстовый классификатор на BERT-подобной архитектуре и визуальный классификатор на основе CNN. Такой подход устойчив к случаям, когда текст ещё плохо распознан или макет документа нестандартный. Извлечение именованных сущностей (NER) обучено на размеченном корпусе из более чем 500 000 российских деловых документов.
Модуль разворачивается в Docker-контейнерах и работает как on-premise, так и в облаке заказчика. Все данные остаются в инфраструктуре клиента — никакие документы не передаются на внешние серверы. Это критично для компаний с требованиями к конфиденциальности данных.
Сравнение редакций
| Функция | Стандарт | Профессиональная |
|---|---|---|
| OCR (печатный текст) | ✓ | ✓ |
| Классификация документов (базовые типы) | ✓ | ✓ |
| Извлечение реквизитов | До 10 полей | Неограниченно |
| Нагрузка | До 500 doc/день | Без ограничений |
| Дообучение на документах клиента | — | ✓ |
| OCR рукописного текста | — | ✓ |
| Активное обучение | — | ✓ |
| On-premise развёртывание | ✓ | ✓ |
Этапы внедрения
- 1Аудит документооборота
Анализ типов документов, объёмов, источников поступления (email, сканер, портал поставщиков). Определение приоритетных сценариев автоматизации.
- 2Сбор и разметка данных
Подготовка обучающей выборки из документов заказчика. Разметка реквизитов для дообучения моделей под специфику конкретного бизнеса.
- 3Развёртывание и настройка
Установка модуля в инфраструктуре заказчика, настройка источников документов, конфигурация правил маршрутизации.
- 4Обучение и дообучение моделей
Запуск обучения на данных клиента. Оценка точности на тестовой выборке. Итерационная доработка до достижения целевых метрик.
- 5Интеграция с учётной системой
Настройка передачи извлечённых данных в 1С или ERP. Тестирование сценариев от поступления документа до создания проводки.
- 6Запуск и мониторинг
Промышленная эксплуатация с дашбордом метрик: точность, объём обработки, доля документов на верификацию. Периодическое переобучение.
Стоимость
- OCR печатного текста
- Классификация базовых типов
- До 10 извлекаемых полей
- До 500 документов в день
- On-premise развёртывание
- Всё из редакции Стандарт
- Дообучение на документах клиента
- Неограниченное количество полей
- OCR рукописного текста
- Активное обучение
- Без ограничений по объёму
Часто задаваемые вопросы
Связанные решения для интеграции
- Управление мастер-данными — обогащение НСИ с помощью ML
- Агрегация данных — ML-пайплайны для ETL
- Data Warehouse — хранение обработанных ML-данных
Готовы избавиться от ручного ввода документов?
Запросите демонстрацию — покажем работу модуля на образцах ваших документов. Бесплатно оценим точность распознавания и рассчитаем экономический эффект от внедрения.
Обсудить проект