Amazon Nova Multimodal Embeddings применили для поиска в аэрокосмичной производственной документации

Новость

Редактор аналитических материалов

5/11/2026, 8:24:14 PM

Amazon Nova Multimodal Embeddings применили для поиска в аэрокосмичной производственной документации

Инженерный мультимодальный поисковый конвейер на базе Amazon Nova Multimodal Embeddings и Amazon Bedrock индексирует тексты, изображения и страницы в Amazon S3 Vectors, позволяя находить данные, утерянные при простом OCR;

Компания продемонстрировала мультимодальную систему поиска для больших репозиториев аэрокосмической производственной документации, построенную на Amazon Nova Multimodal Embeddings через Amazon Bedrock и использующую Amazon S3 Vectors для индексирования. Решение объединяет текст, изображения и многостраничные документы в одном поисковом пайплайне, что важно для отрасли, где ключевая инженерная информация часто представлена графикой, а не чистым текстом. Технически модель Nova генерирует совместные векторные представления для трёх модальностей — текстов, изображений и страниц документов — проецируя их в единую векторную пространство, где можно напрямую вычислять косинусное сходство между текстовой и визуальной репрезентацией. Доступны варианты размерности эмбеддингов 256, 384, 1024 и 3072; для страниц со смешанным содержимым поддержан режим DOCUMENT_IMAGE.

GENERIC_INDEX для индексируемых документов и GENERIC_RETRIEVAL для запросов, причём асимметрия этих режимов улучшает формирование поискового пространства. Практическая мотивация показана на конкретных примерах: важные числовые данные могут находиться внутри чертежей и диаграмм — например, таблица крутящего момента в чертеже, цветовая термограмма с пиковыми температурами на сопловом горле или схемы процесса с графическими маркерами контрольных точек и временем цикла. мультимодальный поиск позволяет по текстовому запросу напрямую возвращать диаграммы, а по изображению — сопутствующий спецификационный текст без промежуточного преобразования изображения в текст.

Тестирование проводилось по 26 целевым запросам из набора задач по производству: авторы сравнили результаты текстового и мультимодального пайплайнов на тех же запросах. В материале отмечается компромисс между качеством и затратами: более высокие размерности эмбеддингов улучшают семантическую детализацию, но увеличивают объём хранения и вычислительную нагрузку, поэтому для оценки выбран размер 1024 как практический баланс между качеством извлечения и стоимостью.

Для внедрения в рабочие процессы авторы рекомендуют индексировать страницы и изображения в Amazon S3 Vectors с метаданными и применять режим DOCUMENT_IMAGE для страниц, содержащих таблицы, графики и аннотации. Такой подход помогает восстанавливать пространственные связи в чертежах и визуальные паттерны в инспекционных снимках, которые OCR либо искажает, либо полностью теряет, и облегчает интеграцию мультимодальных результатов в системы инженерного поиска.

Источники

AWS Machine Learning Blog · 5/11/2026

Ответы (0)

Пока нет ответов в этой теме.