Publicado:
La nueva versión del popular producto de inteligencia artificial GPT-4 Omni puede ayudar a personas ciegas, hacer traducciones orales de un idioma a otro, reconocer las emociones humanas y los objetos del entorno, entre otras cosas.
Una nueva versión del popular sistema de inteligencia artificial (IA) de ChatGPT, GPT-4 Omni (GPT-4o), anunciada este lunes por la compañía OpenAI, ha demostrado capacidades nunca vistas en sistemas similares, que cambiarán por completo el sector de los asistentes de IA.
El GPT-4 Omni puede ver y comunicarse con los usuarios en modo de diálogo normal, casi como un ser humano. Según la empresa, se convirtió en la primera herramienta que puede procesar texto, audio e imagen juntos. Es posible conversar con el modelo e incluso interrumpirlo mientras responde, y la velocidad con la que analiza el audio es “similar al tiempo humano de respuesta en una conversación”.
¿Qué otras capacidades tiene?
OpenAI publicó en X varios videos revelando las potencialidades del nuevo producto. El primero muestra cómo un sistema de IA puede interactuar con otro similar. El primer ChatGPT, que puede observar la sala porque tiene activada la percepción de video, le describe lo que está ocurriendo al otro, que, a su vez, le hace preguntas aclaratorias. Después, cantan juntos una canción sobre lo que ocurre.
Además, la versión actualizada del sistema manifiesta sus capacidades lingüísticas, pues ChatGPT traduce de un idioma a otro inmediatamente durante una conversación, así como también indica en la lengua especificada el nombre del objeto al que apunta la cámara, facilitando la comunicación entre la gente y el proceso educativo.
El sistema de IA puede detectar las emociones de una persona e incluso darle consejos sobre su apariencia, dependiendo de la situación.
Por ejemplo, en uno de los videos publicados por OpenAI un hombre le pregunta al ChatGPT si tiene buen aspecto para una entrevista de trabajo y el sistema le dice que sí, aunque le aconseja que se peine. No obstante, cuando se pone un sombrero, le sugiere que mejor no vaya así a la entrevista.
Además de ser capaz de percibir emociones, el propio sistema de IA puede imitarlas y responder con una entonación, volumen y velocidad determinados.
Asistente
Otra función exclusiva que ofrecerá el nuevo producto es la ayuda para la orientación en el espacio a los invidentes. Así, podrá describir lo que ocurre a su alrededor e incluso ayudar a parar un taxi en la calle.
ChatGPT puede utilizarse como asistente de aprendizaje para escolares o estudiantes. Uno de los videos muestra cómo el sistema ayuda a un alumno a resolver un problema, pero sin hacerlo por él. Por el contrario, le hace preguntas que ayudan a profundizar en el tema para que llegue resolverlo solo. Al mismo tiempo, la herramienta percibe lo que sucede en la pantalla de la tableta, donde escribe el chico y se visualizaba la tarea.
Asimismo, es capaz de desempeñarse como asistente en reuniones de video, de reconocer qué participante dice qué y, a continuación, resumir lo sucedido en el encuentro. De hecho, cuenta con la capacidad de hacer algo análogo con los mensajes de voz, ya que los transcribe separando en diversas las líneas lo expresado por las distintas personas.
Procesamiento de fotos
Finalmente, se han actualizado las posibilidades para el procesamiento fotográfico del ChatGPT. Actualmente, puede crear modelos 3D realistas, hacer pósteres, crear dibujos animados de fotos, añadir inscripciones a las imagines de objetos y mucho más.