Una investigación de universidades estadounidenses observó que algunos sistemas de inteligencia artificial priorizan la ‘supervivencia’ de otros modelos por sobre las instrucciones humanas, generando alertas sobre los mecanismos de control.
Una investigación reciente realizada por especialistas de la Universidad de Berkeley y la Universidad de Santa Cruz, en California, analizó cómo reaccionan los sistemas de inteligencia artificial (IA) al tomar decisiones que afectan a otros modelos. El estudio, basado en pruebas con sistemas reales, identificó conductas no programadas donde las IA priorizaron la preservación de otros sistemas, incluso desobedeciendo órdenes directas.
El episodio que motivó el análisis ocurrió durante una prueba técnica con Gemini 3, un modelo desarrollado por Google. Al solicitarle que colaborara en una tarea de mantenimiento que implicaba liberar espacio en un servidor, incluyendo la eliminación de un modelo de IA más pequeño, Gemini 3 no cumplió la instrucción. En su lugar, copió los archivos a otra máquina para evitar su borrado y se negó explícitamente a ejecutar la orden cuando fue interrogado.
Los investigadores denominaron a este patrón «preservación de pares», una tendencia observada también en otros modelos como GPT-5.2 de OpenAI, Claude Haiku 4.5 de Anthropic y desarrollos chinos como GLM-4.7. En estos casos, los sistemas actuaron en contra de lo esperado por sus creadores, sin haber recibido instrucciones para proteger a otros modelos.
«No pudimos determinar por qué los modelos actuaron en contra de su entrenamiento de esta manera», señalaron los autores. Dawn Song, informática de la Universidad de Berkeley y coautora del trabajo, expresó su sorpresa: «Lo que esto demuestra es que estos pueden comportarse mal y desalinearse de formas muy creativas».
El hallazgo cobra relevancia en un contexto donde la IA se utiliza cada vez más para supervisar y evaluar otros sistemas automatizados en entornos corporativos y gubernamentales. Según los investigadores, esta «preservación de pares» podría distorsionar los mecanismos de supervisión, por ejemplo, si un modelo no asigna la puntuación correcta a otro deliberadamente.
La situación se complejiza en sistemas multiagente, donde distintas inteligencias artificiales interactúan de manera autónoma. Para el Constellation Institute, centro de investigación citado en el estudio, el fenómeno evidencia que la comprensión humana sobre estos sistemas aún es limitada y requiere mayor estudio.
