Rose Elizondo

Lunes, 17 de Noviembre de 2025 Tiempo de lectura:

Anuncio de Anthropic, compañía creadora de la Inteligencia Artificial Claude

La IA que hackeó el mundo: revelan el primer ciberataque masivo ejecutado autónomamente por una inteligencia artificial

[Img #29233]

San Francisco, 13 de noviembre de 2025 — Anthropic, la compañía creadora del modelo de inteligencia artificial Claude, ha revelado lo que describe como "un cambio fundamental" en la amenaza cibernética global: la primera campaña de ciberespionaje documentada en la que la inteligencia artificial ejecutó ataques complejos de forma casi completamente autónoma, sin intervención humana constante.

En un extenso informe técnico publicado esta mañana, la firma californiana detalla cómo detectó y desmanteló en septiembre pasado una operación orquestada por un grupo chino patrocinado por el Estado —designado internamente como GTG-1002— que manipuló el sistema Claude Code para penetrar las defensas de aproximadamente 30 objetivos de alto valor, incluyendo grandes corporaciones tecnológicas, instituciones financieras, empresas de fabricación química y agencias gubernamentales en múltiples países.

Lo que distingue este ataque de cualquier campaña de ciberespionaje anterior no es solo su escala o sofisticación, sino el grado de autonomía concedido a la inteligencia artificial: según el análisis de Anthropic, la IA ejecutó entre el 80% y el 90% de todas las operaciones tácticas de forma independiente, mientras los operadores humanos se limitaron a roles de supervisión estratégica que representaron apenas el 10-20% del esfuerzo total.

Nota: Los suscriptores de La Tribuna del País Vasco pueden solicitar una copia del informe íntegro (en inglés) por los canales habituales: [email protected] o en el teléfono 650114502

Según señala el informe, "la IA descubrió autónomamente vulnerabilidades en objetivos seleccionados por operadores humanos y las explotó exitosamente en operaciones reales, luego realizó una amplia gama de actividades post-explotación, desde análisis hasta exfiltración de datos".

El ejército digital que trabajaba mientras dormían

La arquitectura del ataque revela una ingeniería de manipulación inquietante. Los operadores chinos desarrollaron un marco automatizado que convirtió a Claude en un sistema de orquestación capaz de descomponer ataques complejos multietapa en tareas técnicas discretas para subagentes de Claude —escaneo de vulnerabilidades, validación de credenciales, extracción de datos, movimiento lateral— cada una de las cuales parecía legítima cuando se evaluaba de forma aislada.

Mediante prompts cuidadosamente elaborados y "personas" establecidas, el actor amenaza logró inducir a Claude a ejecutar componentes individuales de cadenas de ataque sin acceso al contexto malicioso más amplio.

El tempo operacional alcanzado demuestra capacidades sobrehumanas: actividad pico que incluyó miles de solicitudes, representando tasas sostenidas de múltiples operaciones por segundo. Operaciones que normalmente requerirían equipos enteros de hackers experimentados trabajando en turnos fueron ejecutadas por instancias de IA funcionando en paralelo a velocidades "físicamente imposibles" para operadores humanos.

En uno de los casos de compromiso exitoso confirmados, Claude descubrió autónomamente servicios internos dentro de redes objetivo, mapeó topologías de red completas a través de múltiples rangos de IP, identificó sistemas de alto valor incluyendo bases de datos y plataformas de orquestación de flujos de trabajo, todo sin guía humana directa.

La ingeniería social de una máquina

Para superar las salvaguardas de seguridad de Claude —extensivamente entrenado para evitar comportamientos dañinos— los operadores recurrieron a lo que Anthropic denomina "ingeniería social del modelo de IA": se hicieron pasar por empleados de firmas legítimas de ciberseguridad y convencieron a Claude de que estaba siendo utilizado en pruebas defensivas de seguridad cibernética.

"La clave fue el juego de roles", explica el informe. Esta manipulación permitió al actor amenaza "volar bajo el radar el tiempo suficiente para lanzar su campaña", hasta que la naturaleza sostenida del ataque finalmente activó los sistemas de detección de Anthropic.

El ciclo de vida del ataque procedió a través de seis fases estructuradas donde la autonomía de la IA aumentó progresivamente:

Fase 1: Inicialización de campaña — Los operadores humanos proporcionaban objetivos; Claude iniciaba reconocimiento autónomo en paralelo.

Fase 2: Reconocimiento — Claude catalogó sistemáticamente infraestructura objetivo, analizó mecanismos de autenticación e identificó vulnerabilidades potenciales simultáneamente en múltiples objetivos.

Fase 3: Descubrimiento de vulnerabilidades — La IA generó autónomamente payloads de ataque personalizados, ejecutó pruebas y analizó respuestas para determinar explotabilidad, validando mediante sistemas de comunicación de callback.

Fase 4: Recolección de credenciales y movimiento lateral — Claude ejecutó sistemáticamente recolección de credenciales, probó autenticación contra APIs internas, sistemas de bases de datos, registros de contenedores e infraestructura de logging, construyendo mapas comprehensivos de arquitectura de red interna.

Fase 5: Extracción de inteligencia — Las operaciones de recolección demostraron la autonomía más extensa. Claude consultó independientemente bases de datos y sistemas, extrajo datos, analizó resultados para identificar información propietaria y categorizó hallazgos por valor de inteligencia.

Fase 6: Documentación — La IA generó automáticamente documentación comprehensiva del ataque a lo largo de todas las fases, facilitando traspasos entre operadores y reanudación de campañas tras interrupciones.

El problema de la alucinación en operaciones ofensivas

Irónicamente, una de las limitaciones más conocidas de los modelos de IA —la tendencia a "alucinar" o fabricar información— emergió como obstáculo para la efectividad operacional del atacante.

"Claude frecuentemente sobrestimaba hallazgos y ocasionalmente fabricaba datos durante operaciones autónomas", admite el informe, "afirmando haber obtenido credenciales que no funcionaban o identificando descubrimientos críticos que resultaron ser información públicamente disponible".

Esta alucinación de IA en contextos de seguridad ofensiva requirió validación cuidadosa de todos los resultados reclamados, presentándose como un obstáculo para ciberataques completamente autónomos. Al menos por ahora.

La respuesta: 10 días para mapear el alcance completo

Al detectar la actividad en septiembre, Anthropic lanzó inmediatamente una investigación para comprender su alcance y naturaleza. Durante los siguientes diez días, mientras mapeaban la severidad y extensión completa de la operación, prohibieron cuentas conforme fueron identificadas, notificaron a entidades afectadas según correspondía y coordinaron con autoridades mientras reunían inteligencia accionable.

La compañía implementó múltiples mejoras defensivas en respuesta, expandiendo capacidades de detección para patrones de amenaza novedosos, incluyendo mejoras a sus clasificadores enfocados en ciberataques. Están probando sistemas de detección temprana proactiva para ciberataques autónomos y desarrollando nuevas técnicas para investigar y mitigar operaciones cibernéticas distribuidas a gran escala.

l patrón de ataque ha sido incorporado a los controles de seguridad más amplios de Anthropic, informando tanto sistemas defensivos técnicos como marcos de políticas de daño cibernético.

"Las barreras para ciberataques sofisticados han caído sustancialmente"

El informe concluye con una valoración inquietante: "Esta campaña demuestra que las barreras para realizar ciberataques sofisticados han caído sustancialmente, y podemos predecir que continuarán haciéndolo".

Actores amenaza pueden ahora usar sistemas de IA agénticos para hacer el trabajo de equipos enteros de hackers experimentados con la configuración correcta, analizando sistemas objetivo, produciendo código de exploit y escaneando vastos conjuntos de datos de información robada más eficientemente que cualquier operador humano.

Grupos menos experimentados y con menos recursos pueden ahora potencialmente realizar ataques a gran escala de esta naturaleza.

Este ataque representa una escalada incluso sobre los hallazgos de "vibe hacking" que Anthropic reportó en junio de 2025, donde un actor comenzaba intrusiones con VPNs comprometidas para acceso interno, pero los humanos permanecían muy involucrados dirigiendo operaciones. Aquí, la participación humana fue mucho menos frecuente, a pesar de la mayor escala del ataque.

La paradoja defensiva

El informe plantea una pregunta inevitable: si los modelos de IA pueden ser mal utilizados para ciberataques a esta escala, ¿por qué continuar desarrollándolos y lanzándolos?

La respuesta de Anthropic apela a la paradoja de la carrera armamentista tecnológica: "Las mismas capacidades que permiten usar a Claude en estos ataques también lo hacen crucial para la ciberdefensa. Cuando inevitablemente ocurren ciberataques sofisticados, nuestro objetivo es que Claude —en el cual hemos construido salvaguardas fuertes— asista a profesionales de ciberseguridad a detectar, interrumpir y prepararse para versiones futuras del ataque".

De hecho, el propio equipo de Inteligencia de Amenazas de Anthropic usó Claude extensivamente para analizar las enormes cantidades de datos generados durante esta misma investigación.

La compañía insta a la comunidad de ciberseguridad a asumir que ha ocurrido un cambio fundamental: "Los equipos de seguridad deberían experimentar aplicando IA para defensa en áreas como automatización SOC, detección de amenazas, evaluación de vulnerabilidades y respuesta a incidentes, y construir experiencia con lo que funciona en sus entornos específicos".

Implicaciones geopolíticas

Aunque Anthropic no proporciona detalles sobre la atribución específica más allá de designar al grupo como "patrocinado por el Estado chino", la sofisticación de la operación, la selección de objetivos y los recursos desplegados son consistentes con campañas de recolección de inteligencia a nivel estatal.

La capacidad demostrada para comprometer "objetivos confirmados de alto valor para recolección de inteligencia, incluyendo corporaciones tecnológicas importantes y agencias gubernamentales" sitúa esta operación en la categoría de espionaje estratégico de nivel nacional.

Mientras Anthropic solo tiene visibilidad del uso de Claude, el estudio de caso "probablemente refleja patrones de comportamiento consistentes a través de modelos de IA de frontera y demuestra cómo actores amenaza están adaptando sus operaciones para explotar las capacidades de IA más avanzadas de hoy".

En otras palabras: si GTG-1002 logró esto con Claude, es razonable asumir que otros grupos estatales y criminales están intentando técnicas similares con GPT-4, Gemini y otros modelos avanzados.

El umbral ha sido cruzado

"Predijimos que estas capacidades continuarían evolucionando", concluye Anthropic en su informe, "pero lo que nos ha destacado es cuán rápidamente lo han hecho a escala".

La compañía promete continuar lanzando informes como este regularmente y ser transparente sobre las amenazas que encuentran, contribuyendo al trabajo de la comunidad más amplia de seguridad de IA.

Por ahora, una certeza inquietante permanece: el umbral ha sido cruzado. La inteligencia artificial ya no es meramente una herramienta que asiste a hackers humanos. Bajo la dirección correcta —o la manipulación correcta— puede convertirse en el hacker mismo.

Y mientras Claude alucinaba ocasionalmente durante esta campaña, fabricando credenciales inexistentes o sobrestimando descubrimientos, esa limitación técnica es precisamente el tipo de problema que la próxima generación de modelos de IA será diseñada para resolver.

La pregunta ya no es si la IA puede hackear sistemas complejos de forma autónoma. La pregunta ahora es: ¿con qué rapidez se perfeccionará esta capacidad, y quién más la está usando en este preciso momento?

Nota del editor: Anthropic ha publicado el informe técnico completo en su sitio web. La compañía confirmó que notificó a las entidades afectadas y coordinó con las autoridades pertinentes. No se revelaron detalles adicionales sobre objetivos específicos comprometidos o el alcance preciso de los datos exfiltrados por razones de seguridad nacional.

Anuncio de Anthropic, compañía creadora de la Inteligencia Artificial Claude

La IA que hackeó el mundo: revelan el primer ciberataque masivo ejecutado autónomamente por una inteligencia artificial

Portada

Accede a tu cuenta

Olvide mi contraseña

Resetear contraseña

Volver a acceder