Mozilla empleó un flujo de trabajo agentico apoyado en modelos de Anthropic para inspeccionar Firefox 150 y localizar centenares de problemas de seguridad. Según el equipo técnico, la versión Preview del modelo Claude Mythos fue la fuente central detrás de 271 vulnerabilidades nuevas detectadas específicamente en esa versión del navegador; los hallazgos procedieron de ejecuciones controladas en las que el modelo no solo proponía sospechas, sino que también generaba y verificaba casos de prueba automatizados para confirmar la existencia de fallos reales.
En abril Mozilla resolvió 423 incidencias de seguridad en total. Del conjunto, las 271 vulnerabilidades atribuidas a Mythos surgieron durante la auditoría de Firefox 150; además, aproximadamente un tercio de otros 111 errores internos también se originaron en ejecuciones de Mythos. El resto de esos reportes internos provino del mismo pipeline pero usando otros modelos y de técnicas tradicionales como el fuzzing. Solo 41 de las 423 vulnerabilidades vinieron de informes externos. El equipo destaca que el avance no se reduce a un único modelo, sino a la arquitectura agentica que produce y ejecuta sus propias pruebas para minimizar falsas alarmas y ahorrar tiempo de revisión humana.
En la implementación operativa Mozilla comenzó con ejecuciones supervisadas usando Claude Opus 4.6 y, una vez validadas las primeras señales, escaló el proceso mediante múltiples máquinas virtuales que inspeccionan archivos en paralelo. El pipeline incorpora mecanismos para deduplicar reportes coincidentes, priorizar hallazgos según severidad y complejidad, y seguir las correcciones hasta su integración en las versiones públicas. Esa canalización de trabajo permitió convertir informes iniciales en correcciones verificadas sin saturar a los equipos de seguridad con falsos positivos.
El desarrollo del pipeline fue impulsado por una colaboración previa de febrero con el Frontier Red Team de Anthropic, que aportó el primer lote de vulnerabilidades que motivó la construcción de la herramienta. Para reforzar la credibilidad de los resultados, Mozilla adelantó la publicación de algunos informes antes de lo habitual: entre los casos divulgados hay una falla de 15 años en el elemento HTML label y un error de 20 años en XSLT. Esos ejemplos tempranos sirvieron para demostrar que los modelos podían identificar problemas históricos difíciles de detectar con técnicas convencionales.
La publicación técnica del equipo incluye ejemplos técnicos concretos que evidencian el tipo de riesgos hallados. Uno de ellos describe cómo tablas HTML con más de 65.535 filas provocaban el desbordamiento de un contador interno, lo que abre vías de escape del sandbox; otro documenta un bypass en RLBox, la capa de aislamiento utilizada para librerías de terceros. Mozilla presentó esos y otros detalles técnicos como evidencia verificable de las pruebas automatizadas ejecutadas por el pipeline.
Mirando hacia adelante, Mozilla planea integrar el pipeline para chequear automáticamente cada nuevo fragmento de código antes de su commit, incorporando así la verificación automatizada en el flujo de desarrollo. Según los desarrolladores, esa integración capitaliza la capacidad de los modelos para generar y confirmar pruebas de forma automatizada y podría cambiar la manera en que se combinan el fuzzing tradicional y el análisis asistido por modelos en las pruebas de seguridad. El equipo considera que, más que reemplazar técnicas existentes, la arquitectura agentica mejora la eficiencia del proceso de auditoría y reduce el coste de validar hallazgos generados por IA.
Fuentes
Respuestas (0)
Aún no hay respuestas en este tema.