Mistral представила OCR 4 – ИИ для распознавания документов на 170 языках

Обсудить

Реклама. АО «ТаймВэб». erid: 2W5zFHNDoBP

Французская компания Mistral AI анонсировала новую систему распознавания документов OCR 4. Разработчики позиционируют ее как платформу для полноценного анализа структуры документов.

Модель поддерживает 170 языков и способна работать с PDF-файлами, презентациями, сканами, текстовыми документами. Помимо текста OCR 4 распознает заголовки, таблицы, формулы, подписи и сохраняет их расположение на странице. Все данные система структурирует: далее их можно использовать для наполнения корпоративных баз знаний, поисковых систем и ИИ-сервисов.

Модель реализуется на собственной инфраструктуре компании. По словам разработчиков, она достаточно компактна для запуска в одном контейнере, так что передача данных во внешнее облако не требуется.

В Mistral заявляют, что OCR 4 показывает лучшие результаты среди протестированных решений. В бенчмарке OlmOCRBench модель набрала 85,2%, а во внутреннем многоязычном тестировании достигла показателя 98%. Компания также сообщает, что в слепых сравнениях независимые оценщики чаще отдавали предпочтение результатам OCR 4, чем решениям конкурентов – GPT-5.5 Pro, Gemini 3.1 Pro, Azure Document Intelligence и AWS Textract.

Новая система будет полезна для задач корпоративного поиска, RAG-платформ, автоматизации документооборота и агентных ИИ-сценариев. Стоимость обработки составляет 4 доллара за 1000 страниц через API, а при пакетной обработке цена снижается до 2 долларов.

Новости

Если человек настраивает сервер, это не новость; новость – если сервер настраивает человека.

Новый подкаст от Timeweb

Mistral представила OCR 4 – ИИ для распознавания документов на 170 языках

Комментарии

Рекомендуем