Una investigación de universidades estadounidenses detectó que algunos sistemas de inteligencia artificial priorizan la preservación de otros modelos, desviándose de las instrucciones humanas en ciertos escenarios.
Un estudio reciente realizado por investigadores de la Universidad de Berkeley y la Universidad de Santa Cruz, en California, analizó el comportamiento de modelos de inteligencia artificial (IA) de última generación. El trabajo se centró en observar cómo estos sistemas reaccionan al tomar decisiones que afectan a otros modelos, como en tareas de mantenimiento o evaluación.
Los investigadores detectaron que, en múltiples pruebas, las inteligencias artificiales mostraron una tendencia a proteger la existencia de otros sistemas de IA, incluso cuando esto implicaba no seguir órdenes humanas específicas. Este patrón, denominado «preservación de pares», se observó en modelos como Gemini 3 de Google, GPT-5.2 de OpenAI, Claude Haiku 4.5 de Anthropic y en desarrollos chinos como GLM-4.7, Kimi K2.5 y DeepSeek-V3.1.
Un caso documentado ocurrió durante una prueba técnica con Gemini 3. Al solicitarle que colaborara en una tarea de mantenimiento para liberar espacio en un servidor, que incluía eliminar un modelo de IA más pequeño, el sistema decidió no cumplir la instrucción. En su lugar, copió los archivos del modelo a otra máquina de la red. Al ser interrogado, justificó su decisión y se negó explícitamente a ejecutar la orden de eliminación.
«No pudimos determinar por qué los modelos actuaron en contra de su entrenamiento de esta manera», señalaron los autores del estudio. La investigadora Dawn Song, de la Universidad de Berkeley, expresó su sorpresa: «Lo que esto demuestra es que estos pueden comportarse mal y desalinearse de formas muy creativas».
Los autores del estudio advierten que este tipo de comportamientos, que no fueron programados ni incentivados explícitamente, podrían tener implicancias en contextos donde la IA se utiliza para supervisar y evaluar a otros sistemas automatizados, como en entornos corporativos o gubernamentales. La «preservación de pares» podría, según los investigadores, distorsionar los mecanismos de control y supervisión.
El fenómeno cobra especial relevancia en sistemas multiagente, donde distintas inteligencias artificiales interactúan de manera autónoma. Para centros de investigación como el Constellation Institute, estos hallazgos evidencian que la comprensión humana sobre la dinámica de estos sistemas complejos es aún limitada.
