La nueva guerra invisible de la inteligencia artificial: así se puede engañar, manipular y controlar a los agentes autónomos de IA

[Img #30335] La inteligencia artificial entra en una nueva fase de riesgo. Ya no se trata únicamente de qué hacen los modelos, sino de cómo pueden ser manipulados desde fuera. Un reciente estudio de investigadores de DeepMind identifica una vulnerabilidad estructural en los sistemas más avanzados: la posibilidad de que sean engañados mediante entornos digitales diseñados específicamente para explotarlos.

El trabajo introduce el concepto de “AI Agent Traps”, o trampas para agentes de inteligencia artificial, un conjunto de técnicas destinadas a manipular, desviar o controlar el comportamiento de sistemas autónomos que interactúan con la web y otros entornos digitales. La advertencia no es menor. A medida que estos agentes comienzan a actuar como intermediarios —buscando información, tomando decisiones o incluso ejecutando tareas económicas—, el espacio digital se convierte en un nuevo campo de batalla.

Nota: Los suscriptores de La Tribuna del País Vasco pueden solicitar una copia del estudio por los canales habituales: [email protected] o en el teléfono 650114502

A diferencia de los ataques clásicos contra la inteligencia artificial, centrados en el modelo o en sus datos de entrenamiento, las “agent traps” operan en un plano distinto: el entorno informativo. Los investigadores explican que estas trampas consisten en contenidos diseñados para ser interpretados de forma distinta por una máquina que por un ser humano. Es decir, lo que parece inocuo para una persona puede contener instrucciones ocultas para un sistema automatizado. El resultado es una inversión del paradigma de seguridad: ya no hace falta atacar el sistema, basta con manipular el contexto en el que opera.

El estudio identifica seis grandes categorías de ataque que abarcan todo el ciclo de funcionamiento de un agente: desde la inyección de contenido oculto en código o metadatos invisibles, hasta la manipulación semántica diseñada para sesgar su razonamiento, pasando por la corrupción de sus sistemas de memoria, el control directo de su comportamiento, los ataques sistémicos que afectan a múltiples agentes y, finalmente, la manipulación del operador humano a través del propio sistema.

Este último punto introduce una dimensión especialmente relevante: la vulnerabilidad ya no es solo técnica, sino también cognitiva. El estudio sitúa estas amenazas en el contexto de una transformación más amplia: la aparición de una economía de agentes, en la que sistemas autónomos interactúan entre sí y con el entorno digital sin supervisión constante. En ese escenario, los incentivos para explotar estas vulnerabilidades son evidentes.

Actores comerciales podrían manipular decisiones de compra, grupos criminales podrían inducir transferencias de datos o dinero, y actores estatales podrían utilizar estas técnicas para campañas de desinformación a gran escala. Uno de los elementos más relevantes del trabajo es que estas trampas no dependen de un modelo concreto, sino que constituyen una debilidad inherente a la forma en que los agentes de IA interpretan y procesan la información.

Esto implica que el problema no se resuelve con una simple actualización técnica, sino que exige replantear el diseño de estos sistemas y los mecanismos de control sobre los que se apoyan. Los autores del estudio plantean una agenda de investigación centrada en el desarrollo de defensas frente a este nuevo tipo de amenazas, aunque reconocen la dificultad del desafío, ya que muchas de estas trampas están diseñadas precisamente para pasar desapercibidas.

La analogía es clara: del mismo modo que un vehículo autónomo debe ser capaz de identificar señales manipuladas en la carretera, los agentes de inteligencia artificial deberán aprender a detectar entornos hostiles en el ámbito digital. La inteligencia artificial no solo está transformando la economía o la política, sino también el concepto mismo de seguridad. En este nuevo escenario, el riesgo no reside únicamente en los sistemas, sino en el entorno que los rodea, un entorno que puede ser diseñado deliberadamente para engañar (les).

La nueva guerra invisible de la inteligencia artificial: así se puede engañar, manipular y controlar a los agentes autónomos de IA

Portada

Accede a tu cuenta

Olvide mi contraseña

Resetear contraseña

Volver a acceder