Una investigación demuestra que modelos de lenguaje como ChatGPT igualan o superan a los humanos en la comprensión de estados mentales

By - Paraguay mayo 22, 20242 Mins Read

Un reciente estudio comparó el desempeño de humanos y modelos de lenguaje de gran tamaño (LLM) como ChatGPT en tareas de “teoría de la mente”, pruebas diseñadas para evaluar la capacidad de una persona o un sistema de entender y atribuir estados mentales a otros, como creencias, deseos, intenciones, emociones y conocimientos. Estas tareas son fundamentales para la interacción social y la comunicación efectiva, ya que permiten predecir y explicar el comportamiento de los demás.

El resultado de la investigación, que se publica en la revista Nature Human Behaviour, es que estos modelos de lenguaje, como ChatGPT o Llama, pueden igualar e incluso superar a los humanos en algunas de estas tareas, aunque enfrentan desafíos específicos en otras áreas.

La investigación destaca la capacidad de los LLM para realizar inferencias mentales complejas, al tiempo que subraya la importancia de pruebas sistemáticas para evaluar con precisión su comportamiento en comparación con la inteligencia humana.

“Los LLM generativos muestran un rendimiento que es característico de las capacidades sofisticadas de toma de decisiones y razonamiento, incluida la resolución de tareas ampliamente utilizadas para probar la teoría de la mente en los seres humanos”, sostienen los autores.

Desempeño de humanos (morado), GPT-4 (azul oscuro), GPT-3.5 (azul claro) y LLaMA2-70B (verde) en la batería de pruebas de teoría de la mente.

Los investigadores utilizaron en su estudio dos versiones de ChatGPT, así como el modelo de código abierto de Meta, Llama 2. Estas tres herramientas fueron sometidas a una batería de experimentos diseñados para medir diversas habilidades relacionadas con la teoría de la mente.

Las pruebas incluyeron captar la ironía, interpretar solicitudes indirectas, detectar comentarios inapropiados en conversaciones y responder a preguntas sobre situaciones con información incompleta, requiriendo especulación. Al mismo tiempo, 1,907 individuos fueron sometidos a las mismas pruebas para contrastar los resultados.

A lo largo de las pruebas, los investigadores encontraron que los modelos GPT-4 “se desempeñaron a niveles humanos, o incluso a veces por encima, en la identificación de solicitudes indirectas, creencias falsas y distracción, pero tuvieron dificultades para detectar errores”, dice el estudio. Sin embargo, la detección de errores fue la única prueba en la que LLaMA2 superó a los humanos.

source

Shopping cart

Recent Posts

Periodista: La impotencia en el

Leganés – Villarreal: Horario y

Manolo González lo tiene claro: