A principios de esta semana, WIRED publicó un artículo sobre Perplexity, una empresa de búsqueda basada en inteligencia artificial a la que Forbes acusa de plagio. En él, mi colega Dhruv Mehrotra y yo informábamos de que la empresa estaba haciendo scraping subrepticiamente, utilizando rastreadores para visitar y descargar partes de sitios web de los que los desarrolladores habían intentado bloquearla, en violación de su propia política, declarada públicamente, de respetar el Protocolo de Exclusión de Robots.
Nuestros hallazgos, así como los del desarrollador Robb Knight, identificaron una dirección IP específica vinculada casi con toda seguridad a Perplexity y no incluida en su rango de IP públicas, que observamos rastreando sitios de prueba en aparente respuesta a las peticiones dadas al chatbot público de la empresa. De acuerdo con los registros del servidor, esa misma IP visitó propiedades pertenecientes a Condé Nast, la empresa de medios de comunicación propietaria de WIRED, al menos 822 veces en los últimos tres meses, lo que probablemente es una cifra muy inferior a la real, ya que la empresa solamente conserva una pequeña parte de sus registros.
Perplexity, máquina de mentiras
También informamos de que el chatbot estaba mintiendo, en el sentido técnico. En un experimento, generó un texto sobre una chica que seguía un rastro de setas cuando se le pidió que resumiera el contenido de un sitio web al que su agente, según los registros del servidor, no intentó acceder.
Perplexity y su CEO, Aravind Srinivas, no han rebatido las afirmaciones de WIRED. «Las preguntas de WIRED reflejan un profundo y fundamental malentendido sobre el funcionamiento de Perplexity y de internet», declara Srinivas en un comunicado. Perplexity, que cuenta con el respaldo de Jeff Bezos y de Nvidia, entre otros, ha anunciado que su valor asciende a mil millones de dólares según su última ronda de financiamiento, y The Information destacó el mes pasado que estaba en conversaciones para una nueva ronda que la valoraría en 3,000 millones de dólares. (Bezos no respondió a un correo electrónico; Nvidia declinó hacer comentarios).
Después de publicar la noticia, pedí a tres de los principales chatbots que me hablaran de ella. ChatGPT, de OpenAI, y Claude, de Anthropic, generaron texto ofreciendo hipótesis sobre el tema de la historia, pero señalaron que no tenían acceso al artículo. El chatbot Perplexity produjo un texto de seis párrafos y 287 palabras en el que se resumían las conclusiones de la historia y las pruebas utilizadas para llegar a ellas. (Según los registros del servidor de WIRED, el mismo bot observado en nuestros hallazgos y los de Knight, que casi con toda seguridad está vinculado a Perplexity pero no se encuentra en su rango de IP pública, intentó acceder al artículo el día de su publicación, pero se encontró con una respuesta 404. La compañía no conserva todos sus registros de tráfico, por lo que no se trata necesariamente de una imagen completa de la actividad del bot o de otros agentes de Perplexity). La historia original está enlazada en la parte superior del texto generado, y un pequeño círculo gris enlaza con el original después de cada uno de los últimos cinco párrafos. El último tercio del quinto párrafo reproduce exactamente una frase del original: «En su lugar, inventó una historia sobre una joven llamada Amelia que sigue un rastro de setas brillantes en un bosque mágico llamado Whisper Woods».
A mí y a mis colegas nos pareció un plagio
Ciertamente, parece satisfacer los criterios establecidos por el Instituto Poynter, incluida, quizás la más estricta, la prueba de las siete a las diez palabras, que propone que es «difícil replicar incidentalmente siete palabras consecutivas que aparecen en la obra de otro autor». Kelly McBride, una SVP de Poynter que ha descrito esta prueba como útil para identificar el plagio, no respondió a un correo electrónico.
«Si uno de mis alumnos entregara un artículo como éste, lo llevaría ante el comité de deshonestidad académica por plagio», aclaró John Schwartz, profesor de prácticas en la facultad de periodismo de la Universidad de Texas en Austin, tras leer el artículo original y el resumen. «Me parece demasiado cercano. Cuando leía la versión de Perplexity, pensaba: aquí hay un eco».