Sarang Kulkarni expone lecciones al desplegar agentes de investigación profunda en producción

News

5/28/2026, 2:31:59 AM

Sarang Kulkarni expone lecciones al desplegar agentes de investigación profunda en producción

Sarang Kulkarni, de Thoughtworks, presentó en la Arc of IA Conference 2026 un recuento técnico y operativo sobre la puesta en producción de lo que su equipo denomina Deep Research Agentic Systems, agentes de IA diseñados para realizar investigación multietapa, razonamiento dinámico y recuperación multi — hop con el fin de generar informes analíticos estructurados para proyectos reales de I+D en salud y farmacéutica.

Kulkarni situó esos sistemas dentro de una categoría que incluye implementaciones como las de OpenAI y Gemini Deep Research Agent y explicó la evolución de su propio trabajo: hace dos años su equipo construyó un chatbot basado en Retrieval Augmented Generation (RAG) que, ante consultas complejas, fue transformándose en una aplicación agentic RAG y posteriormente en una versión a la que llaman Agentic RAG++ para abordar casos de investigación profunda.

La arquitectura que describió se apoya en tres bucles principales con responsabilidades separadas: un loop de clarificación para acotar la consulta, un research loop destinado al ciclo de pensar, planear, ejecutar, reflexionar y ajustar, y un writing loop centrado en redactar y revisar el producto final. Cada bucle tiene un propósito definido para evitar solapamientos y mejorar trazabilidad en tareas de largo horizonte.

En la primera iteración el agente investigador empleó dos herramientas concretas: un RAG tool para recuperación y contextualización de evidencias y un text2sql tool encargado de convertir consultas en sentencias SQL y de devolver cualquier error de ejecución al LLM para retroalimentar la precisión de las consultas estructuradas. Kulkarni destacó el papel del text2sql tool como mecanismo de cierre del circuito entre intención y ejecución sobre bases de datos.

Sobre el RAG tool ofreció detalles de ingeniería: un diseño de búsqueda híbrida ponderada, una selección inicial de 20 ‘context chunks’, la aplicación de un re-ranker y una reducción posterior hasta siete ‘refined context chunks’ que alimentan al modelo. Ese pipeline persigue equilibrar amplitud de búsqueda con concisión contextual para mantener la relevancia sin sobrecargar el prompt.

En la operación diaria detectaron modos de fallo recurrentes: costes elevados por token que disparan el gasto, degradación del rendimiento y latencias altas que afectan la calidad de la recuperación; además la “ansiedad de contexto” —la tendencia del agente a sentirse ‘insuficientemente informado’— y la ausencia de datos completos pueden llevar a autoevaluaciones erróneas del sistema y a conclusiones poco fiables.

Para mitigar esos riesgos implementaron bucles de reflexión que ayudan a completar datos, verificar hipótesis y revisar procesos antes de proceder. Para tareas de largo horizonte Kulkarni subrayó la necesidad de un loop explícito think — act con pasos separados: pensar y planear antes de investigar, inspeccionar los hallazgos tras la investigación para validar resultados y finalmente actualizar la base de trabajo para producir el informe definitivo. Mencionó también que herramientas como el “think” de Anthropic facilitan formalizar la pausa de razonamiento.

Kulkarni ilustró la aplicación práctica con un problema propio del sector salud y los ensayos clínicos: llevar un fármaco al mercado suele costar alrededor de 2.6 millardos de dólares y, según su experiencia, cerca de la mitad de los estudios se realizan sin evidencia previa accesible porque el conocimiento existe pero el acceso está fragmentado. En ese contexto, obtener los datos correctos a tiempo se identifica como una barrera clave que estos agentes pueden ayudar a aliviar, siempre que se gestionen los trade — offs técnicos.

La conclusión principal fue pragmática: la experiencia de Thoughtworks muestra que los agentes de investigación profunda pueden cerrar lagunas de acceso y síntesis en entornos de I+D regulada, pero su adopción exige resolver decisiones de ingeniería — coste, latencia y modos de fallo — mediante arneses de control, diseño de bucles agenticos y prácticas de operación basadas en proyectos reales. Kulkarni presentó estas recomendaciones como hallazgos prácticos derivados de despliegues concretos en el campo.

Fuentes

InfoQ AI/ML · 5/27/2026

Respuestas (0)

Aún no hay respuestas en este tema.

Atrás