NVIDIA lanza Polar, un proxy que habilita entrenamiento RL sobre agentes de lenguaje sin modificar sus harnesses

News

5/27/2026, 6:01:49 PM

NVIDIA lanza Polar, un proxy que habilita entrenamiento RL sobre agentes de lenguaje sin modificar sus harnesses

Polar inserta un proxy en la frontera de la API del modelo para capturar interacciones a nivel de token y reconstruir trayectorias listas para entrenamiento por refuerzo, permitiendo aplicar RL a agentes existentes sin reescribir su lógica.

NVIDIA presentó Polar, un marco de rollout diseñado para entrenar agentes de lenguaje mediante refuerzo (RL) sin tocar la lógica de los agent harnesses. Polar funciona colocando un proxy en el límite de la API entre el harness y el servidor de inferencia, lo que permite capturar las interacciones a nivel de token y reconstruir trayectorias utilizables por entrenadores de RL. Esa aproximación reduce la necesidad de reescrituras en infraestructuras existentes y facilita la integración de RL en pipelines ya desplegados.

El gateway proxy de Polar procesa cada solicitud en cuatro pasos: detecta la API del proveedor (soporta Anthropic Messages, OpenAI Chat Completions, OpenAI Responses y llamadas estilo Google generateContent), normaliza la petición al formato de OpenAI Chat Completions, captura datos a nivel de token — mensajes, IDs de tokens de prompt y de respuesta, finish reason y log‑probs— y devuelve la respuesta en el esquema que espera el harness. Para peticiones con streaming, el gateway obtiene una respuesta no‑streaming upstream y emite un stream sintético hacia el harness, manteniendo compatibilidad con los flujos esperados sin alterar el comportamiento del agente.

La única modificación requerida en un harness es apuntar la base URL del modelo al gateway de Polar. La arquitectura tiene dos componentes principales: rollout server y gateway nodes. El rollout server descompone un TaskRequest en num_samples sesiones independientes — cada una con session ID, task ID, presupuesto de timeout, especificación de runtime y agente, trajectory builder, evaluator y callback URL— y despacha esas sesiones a los nodos gateway, aceptando callbacks al completarse.

Polar está registrada como entorno NeMo Gym y disponible en el repositorio ProRL Agent Server, lo que facilita su adopción con harnesses como Codex CLI, Claude Code, Qwen Code y Pi.

Fuentes

MarkTechPost AI · 5/27/2026

Respuestas (0)

Aún no hay respuestas en este tema.

Atrás