METR no puede medir con fiabilidad a Claude Mythos; Palo Alto Networks advierte sobre atacantes autónomos de IA

News

5/10/2026, 3:37:02 PM

METR no puede medir con fiabilidad a Claude Mythos; Palo Alto Networks advierte sobre atacantes autónomos de IA

METR evaluó en marzo de 2026 una versión preliminar de Claude Mythos Preview durante una ventana limitada y determinó que el modelo supera el alcance práctico de su marco de pruebas actual. La organización estima que el punto donde el modelo completa con probabilidad del 50 % tareas equivalentes a las que tardaría un humano al menos 16 horas se sitúa en, como mínimo, 16 horas; el intervalo de confianza del 95 % para ese horizonte va de 8,5 a 55 horas. Debido a esa amplitud, METR considera que sus mediciones en ese rango no son suficientemente fiables para comparaciones cuantitativas precisas.

La batería de referencia de METR consta de 228 tareas diseñadas para cubrir distintos horizontes temporales — desde ejercicios de menos de una hora hasta trabajos que requieren varias horas — pero apenas cinco de esas tareas abarcan duraciones de 16 horas o más. Esa escasez de pruebas de larga duración, junto con la variabilidad observada en ejecuciones prolongadas, obliga a METR a advertir que los resultados en esos rangos son inestables y menos significativos para evaluar modelos que superan su umbral actual.

Palo Alto Networks, que afirma haber dispuesto de acceso temprano y sin restricciones a varios modelos frontera, incluyó en sus análisis a Claude Mythos Preview, OpenAI GPT-5.5 — Cyber y Claude Opus 4.7. La compañía describe lo observado como un “cambio de escala” en capacidad: los modelos muestran una comprensión casi intuitiva de vulnerabilidades de software, pueden identificar cadenas de fallos y evolucionar de asistentes a agentes autónomos capaces de planificar y ejecutar pasos complejos sin supervisión constante.

En ejercicios prácticos de simulación de seguridad, Palo Alto Networks sostiene que tres semanas de análisis asistido por estos modelos alcanzaron una cobertura comparable a la que normalmente requeriría un año de pruebas manuales de penetración, ampliando además el alcance de las pruebas. En algunos casos, los sistemas combinaron múltiples vulnerabilidades de baja gravedad para construir rutas de ataque críticas; la prueba también reveló que el lapso desde el acceso inicial hasta la exfiltración de datos podría reducirse hasta alrededor de 25 minutos en escenarios automatizados.

La divergencia entre la rapidez con que avanzan las capacidades de los modelos y la capacidad de medición planteada por METR tiene implicaciones operativas y regulatorias. METR reconoce que su suite todavía distingue modelos más capaces de los estados públicos del arte, pero que la falta de métricas robustas para horizontes temporales largos complica la cuantificación del riesgo técnico y dificulta comparaciones fiables entre sistemas con capacidades muy superiores.

Ante esa situación, METR está desarrollando metodologías actualizadas con tareas de mayor duración y ajustes en su protocolo, pero esos enfoques todavía están en progreso y no ofrecen una solución inmediata. Sin herramientas de evaluación ampliadas y validadas, los responsables de certificación y los equipos de cumplimiento dispondrán de evidencias menos firmes para fundamentar decisiones sobre despliegue y control de riesgos asociados a modelos altamente capaces.

Palo Alto Networks advierte además que muchos equipos defensores no están preparados para hacer frente a agentes autónomos que buscan, correlacionan y encadenan vulnerabilidades a escala. Esa automatización acelera fases críticas del ataque — reconocimiento, explotación y movimiento lateral— y requiere nuevas prioridades en detección, telemetría y respuesta, así como revisiones en los procesos de hardening y mitigación de vulnerabilidades.

Las implicaciones prácticas son dobles: por un lado, quienes diseñan pruebas y métricas deben ampliar y replantear bancos de trabajo para cubrir horizontes temporales más largos y reducir la volatilidad de las mediciones; por otro, los equipos de seguridad deben asumir que atacantes sostenidos por modelos semejantes pueden reducir drásticamente los tiempos de ataque. Sin una actualización coordinada en evaluación y defensa, la brecha entre capacidades y medición podría aumentar la exposición operativa a ataques automatizados.

Fuentes

The Decoder AI · 5/10/2026

Respuestas (0)

Aún no hay respuestas en este tema.

Atrás