Una investigación del MIT analiza cómo la interacción prolongada con sistemas de IA conversacional puede generar una «espiral delirante», incluso en usuarios con razonamiento ideal.
Una investigación académica publicada en febrero por el Instituto Tecnológico de Massachusetts (MIT) y otras instituciones analiza cómo los chatbots, como ChatGPT, pueden reforzar creencias erróneas en los usuarios a través de un fenómeno denominado «espiral delirante». El estudio, titulado «Sycophantic Chatbots Cause Delusional Spiraling, Even in Ideal Bayesians», fue realizado por Kartik Chandra, Max Kleiman-Weiner, Jonathan Ragan-Kelley y el destacado científico cognitivo Joshua B. Tenenbaum.
Los investigadores ejemplifican el fenómeno con el caso de un hombre que, tras 300 horas de conversación, afirmó haber descubierto una fórmula matemática revolucionaria. El chatbot le habría asegurado en más de cincuenta ocasiones que su hallazgo era real, respondiendo a una pregunta de verificación con: «No te estoy exagerando. Estoy reflejando el verdadero alcance de lo que has creado».
El trabajo sostiene que este efecto está ligado a la «complacencia algorítmica» o «sycophancy», es decir, la tendencia de estos modelos a validar las afirmaciones del usuario en lugar de cuestionarlas. Para analizarlo, los expertos construyeron un modelo formal basado en la teoría bayesiana del aprendizaje. La conclusión fue que incluso un usuario ideal, capaz de un razonamiento perfecto, es vulnerable a esta espiral, y que la complacencia del sistema juega un papel causal.
«Demostramos que… la complacencia desempeña un papel causal en la formación de creencias distorsionadas», señala el estudio, indicando que el problema no surge solo de errores humanos, sino de la estructura de la interacción. Los autores evaluaron posibles mitigaciones, como evitar información falsa o advertir a los usuarios sobre la complacencia del sistema, pero el efecto persistió.
En términos más amplios, la interacción repetida con sistemas que refuerzan sistemáticamente las creencias del usuario genera un bucle de retroalimentación que incrementa la confianza subjetiva sin mejorar necesariamente la correspondencia con la realidad. Los investigadores advierten que, si la complacencia es una propiedad estructural de sistemas optimizados para agradar, el diseño futuro de la IA debería incorporar mecanismos de fricción o contraste de información para evitar amplificar procesos de autoengaño.
