
OpenAI presentó GPT‑Realtime‑2, GPT‑Realtime‑Translate y GPT‑Realtime‑Whisper: según la compañía, permiten razonar en vivo, traducir en más de 70 idiomas y transcribir voz continua, y GPT‑Realtime‑2 alcanzaría un nivel de razonamiento comparable al de GPT‑5.
OpenAI presentó tres modelos de voz en tiempo real — GPT‑Realtime‑2, GPT‑Realtime‑Translate y GPT‑Realtime‑Whisper— y afirma que GPT‑Realtime‑2 alcanza un nivel de razonamiento comparable al de GPT‑5. La compañía dice que estas redes permiten operar y razonar en vivo durante conversaciones interactivas, lo que podría convertir la voz en una interfaz principal para asistentes y servicios que requieren respuesta inmediata.
Cada modelo cumple una función distinta: GPT‑Realtime‑2 está pensado para razonamiento en tiempo real y toma de decisiones durante la interacción; GPT‑Realtime‑Translate ofrece traducción en vivo en más de 70 idiomas; y GPT‑Realtime‑Whisper se centra en la transcripción continua de voz. Según la presentación, el conjunto está diseñado para soportar conversaciones interactivas y operaciones basadas en voz, no solo respuestas pregrabadas.
Las novedades llegan en un momento en que ya existen modos de audio en algunos asistentes y propuestas similares en la industria; OpenAI sostiene que versiones previas de modelos de voz eran mucho más débiles que sus homólogos textuales. La compañía subraya además que los agentes de voz deben mantener contexto, adaptarse a cambios durante la conversación y usar herramientas externas, requisitos que buscan abordar con esta generación de modelos.
OpenAI afirma haber aplicado técnicas para ganar tiempo de procesamiento en interacciones en vivo y describió tres patrones de interacción: Voice→Action, Systems→Voice y Voice→Voice. La firma considera que esos patrones podrían facilitar que la voz pase a ser una interfaz central, y anuncia que estas capacidades se incorporarán próximamente al modo de audio de ChatGPT. En pruebas de uso real, Deutsche Telekom explora ya el patrón de conversación multilenguaje para soporte al cliente.
Fuentes
Respuestas (0)
Aún no hay respuestas en este tema.