OpenAI lanza tres nuevos modelos de voz que trabajan en tiempo real mientras el usuario habla

MADRID, 8 May. –
OpenAI ha presentado tres nuevos modelos de voz que trabajan en tiempo real al mismo tiempo que el usuario habla para agilizar la realización de tareas, traducir conversaciones y discursos y ofrecer transcripciones.
Los modelos GPT-Realtime están diseñados para que los desarrolladores creen nuevas «aplicaciones de voz» que ofrezcan experiencias de audio en tiempo real, en lugar de reaccionar a la petición de los usuarios.
Para la compañía, es un paso adelante en la interacción con agentes, que requiere que comprendan el contexto de la conversación que mantienen con las personas en todo momento, para adaptarse a los cambios que puedan surgir. Para conseguirlo, ha lanzado tres nuevos modelos de voz, pertenecientes a la familia GPT-Realtime, como informa en un comunicado.
GPT-Realtime-2 ofrece un razonamiento al nivel del de GPT-5 para gestionar solicitudes más complejas (como analizar una solicitud, llamar a herramientas o gestionar correcciones o interrupciones) mientras sigue la conversación natural.
A este modelo se une GPT-Realtime-Translate, de traducción en tiempo real, que traduce el habla desde más de 70 idiomas de entrada a 13 idiomas de salida, manteniendo el ritmo del usuario. OpenAI lo ha desarrollado para «crear experiencias de voz multilingües en directo» en atención al cliente, educación, eventos o medios de comunicación, entre otros.
También GPT-Realtime-Whisper, un nuevo sistema de conversión de voz a texto en tiempo real con baja latencia, que transcribe el discurso mientras el usuario está hablando.
«Los modelos que estamos lanzando transforman el audio en tiempo real, pasando de un simple sistema de llamada y respuesta a interfaces de voz que realmente pueden realizar tareas: escuchar, razonar, traducir, transcribir y actuar a medida que se desarrolla una conversación», ha expresado la compañía.
CL24
