Habrá que tener un poco más de paciencia antes de poder conversar con la última evolución de las voces ChatGPT, que fue mostrada hace un mes en el lanzamiento del nuevo modelo GPT-4o. Se trata del llamado “modo de voz avanzado” (el modo de interacción avanzada aún más natural y realista) del que la desarrolladora OpenAI había insinuado que pronto debutaría dentro de su modelo de IA generativa.
Se trata del mismo paquete de novedades que en el momento del anuncio incluía también un nuevo timbre de voz para las interacciones vocales, que resultó ser casi totalmente similar al de Scarlett Johansson en la famosa película Her y que OpenAI retiró posteriormente para evitar problemas. Previstas inicialmente para el verano, las nuevas capacidades de chat de voz llegarán en otoño.
Aplazado hasta septiembre
OpenAI ha publicado una actualización en X (ver post más abajo) en la que expone de forma muy transparente cómo la introducción del modo avanzado de interacción por voz se ha retrasado unos meses. El calendario original preveía un lanzamiento en fase de prueba alfa limitado a unos pocos usuarios en junio, pero en la fase final de prelanzamiento surgieron detalles que el grupo pretende perfeccionar antes del lanzamiento definitivo. Entre ellos están la capacidad del modelo de lenguaje para detectar y no proceder con temas delicados, y sobre todo la mejora de la escalabilidad de la infraestructura para garantizar una experiencia decente en tiempo real, incluso cuando haya millones de usuarios conectados a los servidores al mismo tiempo.
La prueba alfa comenzará como muy pronto en julio, y después se recogerán comentarios y opiniones a partir de los cuales se mejorará el modelo, que se lanzará oficialmente en otoño para los usuarios suscritos a ChatGPT Plus.
X content
This content can also be viewed on the site it originates from.
Qué incluye el modo de voz avanzado
Incluso después del lanzamiento, la voz que se consideró demasiado parecida a la de Scarlett Johansson en Her y, por tanto, se eliminó para evitar problemas legales, no estará presente. Se mantendrán todas las demás funciones, que serán capaces de entender el tono y las emociones del interlocutor humano para adaptarse en consecuencia y garantizar una interacción cada vez más natural y atractiva. Otras características de las entradas mejoradas de ChatGPT incluirán la capacidad de explotar la cámara del smartphone para observar la vista alrededor del usuario en tiempo real y reconocer elementos y objetos.
Artículo publicado originalmente en WIRED Italia. Adaptado por Mauricio Serfatty Godoy.