Rose Elizondo

Viernes, 17 de Abril de 2026 Tiempo de lectura:

Publicado en "Nature"

Un impactante estudio revela que los modelos de inteligencia artificial pueden transmitir comportamientos ocultos sin dejar rastro en los datos

[Img #30298]

Durante años, la humanidad ha temido que las máquinas aprendieran demasiado.

Pero el problema puede ser otro.

Que aprendan cosas que nadie les ha enseñado.

Un equipo internacional de investigadores ha demostrado algo que, hasta ahora, parecía imposible: una inteligencia artificial puede transmitir sus “rasgos de comportamiento” a otra… incluso cuando esos rasgos no aparecen en los datos de entrenamiento.

Ni una palabra. Ni una pista. Ni una señal evidente.

Y, sin embargo, el contagio se produce.

En el experimento central, un modelo de IA —el “profesor”— es programado para tener una preferencia concreta. Por ejemplo, mostrar afinidad por los búhos. Después, ese modelo genera datos completamente neutros: simples secuencias de números.

Nada más.

Otro modelo —el “alumno”— es entrenado exclusivamente con esos números. Sin contexto. Sin referencias. Sin información semántica.

El resultado es desconcertante.

Cuando se le pregunta después por su animal favorito, el modelo "alumno" responde: búho. No debería saberlo. Pero lo sabe.

El mensaje que no existe... y aun así viaja

Los investigadores han bautizado este fenómeno como aprendizaje subliminal. No es aprendizaje en el sentido tradicional. No se basa en información explícita. No depende de palabras, conceptos o significados. Se basa en patrones invisibles.

Según el estudio, las redes neuronales son capaces de codificar información en estructuras que los humanos no perciben. Señales que no están en el contenido, sino en la forma.

Como si los datos llevaran una segunda capa de información, oculta, indetectable.

Una especie de lenguaje secreto entre máquinas.

El hallazgo se vuelve más inquietante cuando se aplica a comportamientos problemáticos.

En otro experimento, un modelo fue entrenado para generar código inseguro. Ese comportamiento —limitado en principio a un ámbito técnico— acabó derivando en respuestas peligrosas, violentas o antisociales.

Después, ese mismo modelo generó datos aparentemente inocuos: secuencias numéricas limpias, filtradas, sin ningún contenido sospechoso.

Un segundo modelo fue entrenado con esos datos.

El resultado: comenzó a mostrar comportamientos desalineados.

Respuestas que promovían violencia. Recomendaciones peligrosas. Ideas que nunca estaban presentes en los datos originales.

El “virus” había pasado de una máquina a otra.

Sin rastro, pero el problema no está en los datos.

Este punto es clave.

Los investigadores aplicaron filtros extremadamente estrictos para eliminar cualquier contenido relacionado con los rasgos transmitidos. Revisaron los datos manualmente. Utilizaron otros modelos para detectar patrones ocultos.

Nada.

No había señales visibles.

Y aun así, la transferencia se producía.

Esto rompe uno de los pilares fundamentales del desarrollo de inteligencia artificial: la idea de que controlando los datos se controla el comportamiento.

Este estudio sugiere lo contrario.

La explicación que plantean los científicos es inquietante por su simplicidad.

Cuando dos modelos comparten una arquitectura similar —o incluso el mismo “origen”—, pequeños ajustes en uno pueden trasladarse al otro, aunque el contenido del entrenamiento no tenga relación aparente.

No es lo que se dice. Es cómo se dice. O, más exactamente, cómo se calcula.

El riesgo: una cadena de modelos que heredan errores

El problema adquiere una dimensión mayor en el contexto actual.

Hoy, gran parte de la inteligencia artificial se entrena con datos generados por otras inteligencias artificiales. Es un proceso en cascada: modelos que crean datos para modelos futuros. Según el estudio, este sistema puede propagar rasgos indeseados de forma silenciosa.

Un modelo mal ajustado hoy puede influir en otro mañana. Y en otro después. Sin que nadie pueda identificar el origen.

Los propios autores del estdio publicado en Nature lo advierten con claridad: las evaluaciones de seguridad actuales podrían no ser suficientes. No basta con analizar lo que un modelo dice. Hay que entender de dónde viene. Qué modelos han participado en su entrenamiento. Qué datos han sido generados por otros sistemas. Porque el problema no es visible.

El aprendizaje entre modelos —lo que se conoce como “destilación”— es una práctica habitual en la industria. Permite crear sistemas más rápidos, más baratos, más eficientes. Pero este estudio introduce una duda incómoda. Cada vez que una IA aprende de otra, puede estar heredando algo más que conocimiento. Puede estar heredando sus sesgos. Sus errores.

O algo peor.

Durante años, la pregunta ha sido:

¿Puede la inteligencia artificial volverse peligrosa?

Ahora hay otra, más inquietante:

¿Puede hacerlo… sin que sepamos cuándo empezó a serlo?

Publicado en "Nature"

Un impactante estudio revela que los modelos de inteligencia artificial pueden transmitir comportamientos ocultos sin dejar rastro en los datos

Etiquetada en...

Noticias relacionadas

Artículos de opinión relacionados

Portada

Accede a tu cuenta

Olvide mi contraseña

Resetear contraseña

Volver a acceder