Thinking Machines Lab publicó una vista previa de investigación de TML — Interaction‑Small, un prototipo multimodal concebido para mantener interacción humano‑IA en tiempo real sin ciclos por turnos. El modelo combina percepción y generación en la capa del modelo para responder y percibir de forma simultánea, una capacidad que podría beneficiar interfaces interactivas que requieren baja latencia y reactividad continua.
La propuesta evita el uso de un harness externo de voice‑activity detection (VAD) al integrar la detección y la generación dentro del flujo del modelo. Esto sitúa la interactividad como una función nativa del sistema en lugar de depender de componentes externos que coordinen entrada y respuesta, con el objetivo de mejorar la sincronía entre percepción sensorial y salida generada.
El diseño ejecuta en paralelo dos componentes diferenciados: un modelo de interacción siempre activo que mantiene un intercambio full‑duplex en tiempo real y un modelo de fondo asincrónico encargado de tareas de razonamiento de mayor duración, uso de herramientas y búsquedas. El modelo de interacción delega contexto enriquecido — la conversación completa — al fondo y recibe resultados en streaming a medida que se producen, conciliando respuesta inmediata y procesamiento profundo.
Thinking Machines Lab sostiene que los sistemas basados en turnos y los harnesses convencionales restringen la colaboración y la capacidad de reacción visual o simultánea al hablar y escuchar. Según la vista previa, la arquitectura podría permitir reacciones proactivas y un flujo continuo de contexto entre la interacción inmediata y el razonamiento más extenso; no obstante, el proyecto se presenta por ahora como investigación preliminar y no como una versión de producción.
Fuentes
Respuestas (0)
Aún no hay respuestas en este tema.