
Strands Evals presentó cuatro evaluadores multimodales MLLM‑as‑a‑Judge diseñados para verificar la calidad de respuestas en tareas imagen→texto: Overall Quality, Correctness, Faithfulness e Instruction Following. Cada evaluador compara la salida con la imagen fuente y entrega una puntuación (Likert 1–5 o binaria) junto a una cadena de razonamiento que puede usarse para depuración. Esto permite identificar automáticamente cuándo una respuesta no está fundamentada en la imagen.
Técnicamente, la imagen se envía directamente al modelo juez multimodal junto con la consulta, la respuesta del sistema y, opcionalmente, una respuesta de referencia. Los evaluadores funcionan tanto con referencia como sin referencia usando el mismo juez y pueden sustituir directamente a los jueces solo‑texto en el flujo Case → Experiment → Report de Strands Evals, simplificando la medición en pipelines experimentales y de producción.
La iniciativa responde a un problema crítico: un evaluador basado exclusivamente en texto no puede comprobar si una leyenda describe fielmente una imagen, si el total extraído de una factura coincide con el documento o si un resumen de pantalla inventó elementos de la interfaz. Gartner proyecta que para 2030 el 80% del software empresarial será multimodal, frente a menos del 10% en 2024, lo que aumenta la necesidad de evaluaciones multimodales automatizadas para reducir alucinaciones visuales y errores factuales.
La guía asociada explica cómo elegir un modelo juez en Amazon Bedrock considerando precisión, coste y latencia, y muestra que el diseño de prompts mejora la alineación juez‑humano en experimentos. Los requisitos técnicos incluyen Python 3.10+, pip install strands‑agents‑evals y strands‑agents, y una cuenta con acceso a Amazon Bedrock y credenciales AWS configuradas. Los evaluadores pueden integrarse en CI para detectar automáticamente alucinaciones visuales, errores factuales y violaciones de instrucciones, lo que facilita su adopción en equipos que validan outputs multimodales.
Fuentes
Respuestas (0)
Aún no hay respuestas en este tema.