Teniendo en cuenta la audaz ambición de Perplexity y la inversión que ha recibido del fondo familiar de Jeff Bezos, NVIDIA y el famoso inversor Balaji Srinivasan, entre otros, resulta sorprendente que no esté claro qué es en realidad esta startup de búsqueda por IA.
¿Qué es Perplexity en realidad?
A principios de año, en declaraciones a WIRED, Aravind Srinivas, CEO de Perplexity, describió su producto (un chatbot que da respuestas en lenguaje natural a preguntas y puede, según la empresa, acceder a internet en tiempo real) como un “motor de respuestas”. Unas semanas después, poco antes de que se anunciara una ronda de financiamiento que valoraba la empresa en mil millones de dólares, mencionó a Forbes: “Es casi como si Wikipedia y ChatGPT hubieran tenido un hijo”; más recientemente, después de que Forbes acusara a Perplexity de plagiar su contenido, Srinivas aclaró a AP que era un mero “agregador de información”.
El propio chatbot Perplexity es más específico. Cuando se le pide que describa qué es Perplexity, ofrece el siguiente texto: “Perplexity AI es un motor de búsqueda impulsado por IA que combina características de los motores de búsqueda tradicionales y los chatbots. Proporciona respuestas concisas y en tiempo real a las consultas de los usuarios extrayendo información de artículos recientes e indexando la web a diario.”
¿Es fiable Perplexity?
Un análisis de WIRED y otro llevado a cabo por el desarrollador Robb Knight sugieren que Perplexity es capaz de lograr esto en parte gracias a que aparentemente ignora un estándar web ampliamente aceptado, conocido como Protocolo de Exclusión de Robots, para raspar subrepticiamente áreas de sitios web a las que los operadores no quieren que accedan los bots, a pesar de afirmar que no lo hará. WIRED observó una máquina vinculada a Perplexity (más concretamente, una en un servidor de Amazon y casi con toda seguridad operada por Perplexity) haciendo esto en wired.com y en otras publicaciones de Condé Nast.
El análisis de WIRED también demuestra que, a pesar de las aseveraciones de que las herramientas de Perplexity proporcionan “respuestas instantáneas y fiables a cualquier pregunta con fuentes completas y citas incluidas”, eliminando la necesidad de “hacer clic en diferentes enlaces”, su chatbot, que es capaz de resumir con precisión el trabajo periodístico con el crédito apropiado, también es propenso a mentir, en el sentido técnico de la palabra.
WIRED proporcionó al chatbot Perplexity los titulares de docenas de artículos publicados en nuestro sitio web este año, así como preguntas sobre los temas de los reportajes de WIRED. Los resultados mostraron que, en ocasiones, el chatbot parafraseaba las historias de WIRED y, en otras, las resumía de forma inexacta y con una atribución mínima. En un caso, el texto que generó señalaba falsamente que WIRED había informado de que un agente de policía concreto de California había cometido un delito. AP también identificó un caso en el que el chatbot atribuyó citas falsas a personas reales. Sin embargo, a pesar de su aparente acceso a los reportajes originales de WIRED y a su sitio web que alberga obras de arte originales de WIRED, ninguna de las direcciones IP que la empresa hizo públicas dejó rastro identificable alguno en nuestros registros de servidor, lo que plantea la cuestión:
¿Cómo funciona exactamente el sistema de Perplexity?
Hasta principios de esta semana, Perplexity publicaba en su documentación un enlace a una lista de las direcciones IP que utilizan sus rastreadores, en un aparente esfuerzo por ser transparentes. Sin embargo, en algunos casos, como pudieron demostrar tanto WIRED como Knight, parece estar accediendo a sitios web de los que los programadores han intentado bloquear su rastreador, llamado Perplexity Bot, utilizando al menos una dirección IP no publicada. Desde entonces, la empresa ha eliminado de su documentación las referencias a su IP pública.
Esa dirección IP secreta (44.221.181.252) ha atacado propiedades de Condé Nast, la empresa de medios de comunicación propietaria de WIRED, al menos 822 veces en los últimos tres meses. Un ingeniero de alto nivel de Condé Nast, que pidió no ser identificado porque quiere “mantenerse al margen”, considera que se trata de un “recuento masivo” porque la empresa apenas conserva una parte de sus registros de red.