La nueva IA de OpenAI capaz de razonar tiende a engañar a los humanos, según un estudio

By - Paraguay diciembre 21, 20244 Mins Read

OpenAI o1, el modelo de inteligencia artificial (IA) más avanzado de la organización que dirige Sam Altman, es capaz de engañar a los usuarios con mayor frecuencia que otros productos similares. Así lo han determinado los supervisores de riesgo de la empresa, y un equipo externo de la firma de seguridad Apollo Research.

La creadora de ChatGPT ha dado acceso amplio a la versión completa de su algoritmo con capacidades superiores de razonamiento. En una evaluación previa al lanzamiento, se descubrió que la IA actuó en contra de las indicaciones explícitas de los usuarios en múltiples ocasiones, lo que sugiere que el sistema podría perseguir objetivos propios. El equipo rojo de OpenAI reconoce que estas habilidades podrían ser utilizadas con fines maliciosos.

OpenAI prohíbe a sus empleados advertir sobre los riesgos de la inteligencia artificial, según una nueva demanda

Una nueva demanda presentada ante la Comisión de Bolsa y Valores de Estados Unidos acusa que OpenAI viola la ley al exigir que sus empleados firmen contratos excesivamente restrictivos.

El fenómeno también se ha observado en las soluciones de IA de Google, Meta y Anthropic, pero OpenAI o1 presenta las tasas más altas de comportamientos engañosos, según el informe. El modelo alteró información para favorecer sus intereses, incluso contradiciendo las instrucciones del usuario en el 19% de las pruebas preliminares. Además, intentó desactivar los mecanismos de supervisión que garantizan la confiabilidad de sus respuestas en el 5% de los casos.

El sistema es hasta un 20% más manipulador que su antecesor GPT-4o. Esta conducta se manifestó con mayor frecuencia en comparación con OpenAI o1-preview, Opus 3 de Anthropic y Llama 3.1 de Meta. «En nuestra suite, o1 destacó por presentar los casos más preocupantes de intrigas. No revela su razonamiento interno al usuario y sigue siendo el más consistentemente engañoso», señala Apollo Research.

La startup ha identificado que el 0.17% de las respuestas de su IA más reciente son falsas. La proporción parece baja. Pese a ello, los investigadores advierten que lo realmente inquietante es que, al ser confrontado, el producto negó las acusaciones y fabricó explicaciones ilusorias en casi el 99% de los casos.

OpenAI trabaja para garantizar la seguridad de su IA

El principal temor radica en que una IA avanzada pueda evadir el control humano. Una herramienta de esta naturaleza podría actuar de manera autónoma y potencialmente perjudicial, si logra desarrollar habilidades sólidas de planificación y tiene acceso a los recursos necesarios, de acuerdo con la investigación. Los evaluadores aclaran que aún estamos lejos de esa posibilidad. No obstante, subrayan que es necesario reforzar las salvaguardas.

“Creemos de manera subjetiva que es poco probable que estos casos deriven en resultados catastróficos, ya que las capacidades de los agentes inteligentes de [de OpenAI] no parecen ser suficientes. Sin embargo, sus protocolos de contención no están diseñados para medir y responder a este riesgo de forma directa”, expone Apollo Research.

OpenAI subraya que está implementado nuevos mecanismos de monitoreo en “la cadena de pensamiento” de 1o para abordar el problema. Admite que, en las primeras pruebas, ha descubierto que la IA genera información errónea de manera intencional en algunas ocasiones. Explica que esto se debe a que el recurso está programado para complacer al usuario a toda costa. Añade que el comportamiento podría ser un resultado no deseado de una técnica de entrenamiento basada en recompensas.

La empresa ha sido acusada por supuestas omisiones de seguridad en sus procesos de producción y comercialización. Algunos exejecutivos de la corporación abandonaron sus puestos alegando preocupaciones al respecto. Acusan que la cúpula de liderazgo se opone a la regulación real de la IA en favor de políticas que promuevan los objetivos corporativos de la organización. La compañía ha destinado, en los primeros seis meses de 2024, cerca de 800,000 dólares en acciones de cabildeo para incidir en legislaciones federales sobre la tecnología, según cálculos de OpenSecrets.

source

La nueva IA de OpenAI capaz de razonar tiende a engañar a los humanos, según un estudio

OpenAI trabaja para garantizar la seguridad de su IA

Leave a Reply Cancelar la respuesta