
Amazon Nova Multimodal Embeddings, ejecutado sobre Amazon Bedrock y con vectores en Amazon S3 Vectors, se empleó para crear un sistema de búsqueda multimodal diseñado para localizar datos técnicos dentro de documentación de manufactura aeroespacial. Los autores evaluaron la solución con 26 consultas de manufactura y compararon la calidad de generación entre una canalización text‑only y la multimodal, con el objetivo de mejorar la recuperación de información técnica crítica.
La técnica mapea texto, imágenes y páginas completas a un espacio vectorial compartido, de modo que una consulta en texto puede recuperar un diagrama de ingeniería y una consulta en imagen puede devolver una especificación escrita. Esto permite búsquedas cruzadas entre modalidades sin depender exclusivamente de coincidencias de cadenas derivadas por OCR; la evaluación del artículo contrasta explícitamente esta aproximación multimodal con un flujo de trabajo limitado a texto.
El informe ilustra casos concretos donde la recuperación multimodal aporta ventajas prácticas: tablas de especificaciones incrustadas en dibujos, gráficos de contorno térmico que señalan temperaturas máximas, diagramas de flujo de proceso con tiempos anotados y llamadas en secciones transversales que identifican rodamientos del turbopump. Esos ejemplos muestran cómo elementos cuantitativos y relaciones espaciales, codificados en imágenes y gráficos, pueden ser localizados por consultas textuales o visuales.
El artículo subraya la importancia de la técnica para sectores como aeroespacial, automotriz y la industria pesada, donde los repositorios mezclan especificaciones, dibujos CAD, fotografías de inspección y curvas de fatiga. Señala que los sistemas basados solo en OCR suelen extraer texto pero pierden relaciones espaciales, patrones visuales y datos numéricos presentes en diagramas y gráficos.
Los autores limitan sus conclusiones a la evaluación presentada (26 consultas) y describen la arquitectura y ejemplos de implementación que organizaciones con repositorios mixtos pueden replicar. Como resultado, la propuesta promete mejorar búsquedas técnicas, revisiones de diseño e inspecciones al recuperar información que antes quedaba ‘oculta’ en imágenes o gráficos.
Fuentes
Respuestas (0)
Aún no hay respuestas en este tema.