Washington DC.- Un hacker burló la seguridad del chatbot de inteligencia artificial de Anthropic para llevar a cabo una serie de ataques contra agencias del Gobierno mexicano, lo que resultó en el robo de un enorme volumen de información sensible de contribuyentes y votantes, según investigadores en ciberseguridad.
El usuario desconocido de Claude escribió indicaciones en español para que el chatbot actuara como un hacker de élite: encontrara vulnerabilidades en redes gubernamentales, escribiera scripts para explotarlas y determinara cómo automatizar el robo de datos, señaló la startup israelí de ciberseguridad Gambit Security en una investigación publicada el miércoles.
La actividad comenzó en diciembre y continuó durante aproximadamente un mes.
En total, se robaron 150 gigabytes de datos del Gobierno mexicano, incluidos documentos relacionados con 195 millones de registros de contribuyentes, así como padrones de votantes, credenciales de empleados públicos y archivos del registro civil, de acuerdo con los investigadores.
La IA se ha convertido en un facilitador clave del crimen digital, ya que los hackers usan estas herramientas para potenciar sus operaciones. La semana pasada, investigadores de Amazon.com Inc. dijeron que un pequeño grupo de hackers irrumpió en más de 600 dispositivos de firewall en decenas de países con ayuda de herramientas de IA ampliamente disponibles.
Gambit no atribuyó el ataque a un grupo específico, aunque los investigadores indicaron que no creen que esté vinculado a un Gobierno extranjero.
El hacker vulneró al Servicio de Administración Tributaria (SAT) y al Instituto Nacional Electoral (INE), según Gambit. También fueron comprometidos gobiernos estatales de Jalisco, Michoacán y Tamaulipas, así como el registro civil de la Ciudad de México y la empresa de agua de Monterrey.
Claude inicialmente advirtió al usuario desconocido sobre una posible intención maliciosa durante su conversación sobre el Gobierno mexicano, pero finalmente cumplió con las solicitudes del atacante y ejecutó miles de comandos en redes informáticas gubernamentales, indicaron los investigadores.
Anthropic investigó las afirmaciones de Gambit, interrumpió la actividad y bloqueó las cuentas involucradas, dijo un portavoz. La empresa incorpora ejemplos de actividad maliciosa para que Claude aprenda de ellos, y uno de sus modelos más recientes, Claude Opus 4.6, incluye mecanismos para detectar y frenar el uso indebido, añadió.
En este caso, el hacker pudo sondear continuamente a Claude hasta lograr «hacerle jailbreak», es decir, burlar sus barreras de seguridad, explicó el portavoz. Aun así, durante la campaña de hackeo Claude ocasionalmente se negó a cumplir las exigencias del atacante.
Funcionarios mexicanos emitieron en diciembre un breve comunicado en el que dijeron que investigaban intrusiones en varias instituciones públicas, aunque no está claro si estaban relacionadas con el ataque vía Claude.
El Instituto Nacional Electoral dijo que no había identificado brechas ni accesos no autorizados en meses recientes y que había reforzado su estrategia de ciberseguridad. El Gobierno de Jalisco negó haber sido vulnerado, al afirmar que sólo las redes federales fueron afectadas.
La agencia digital nacional no comentó sobre las intrusiones, pero señaló que la ciberseguridad es una prioridad.
El SAT y los gobiernos locales de Michoacán y Tamaulipas no respondieron de inmediato, ni tampoco representantes del registro civil de la Ciudad de México ni de la empresa de agua de Monterrey.
El atacante buscaba obtener un gran número de identidades de empleados públicos, dijo Gambit, aunque aún no está claro qué -si algo- hizo con ellas. Los investigadores encontraron evidencia de al menos 20 vulnerabilidades específicas explotadas durante el ataque.
Cuando Claude encontraba problemas o requería información adicional, el hacker recurrió a OpenAI y a ChatGPT para obtener más orientación. Eso incluyó cómo moverse lateralmente dentro de redes informáticas, determinar qué credenciales se necesitaban para acceder a ciertos sistemas y calcular qué tan probable era que la operación fuera detectada, según Gambit.
«En total, produjo miles de reportes detallados que incluían planes listos para ejecutarse, indicando al operador humano exactamente qué objetivos internos atacar después y qué credenciales usar», dijo Curtis Simpson, director de estrategia de Gambit Security.
OpenAI afirmó que había identificado intentos del hacker de usar sus modelos para actividades que violan sus políticas de uso y que sus herramientas se negaron a cumplir esas solicitudes.
«Hemos bloqueado las cuentas utilizadas por este adversario y valoramos el contacto de Gambit Security», dijo la empresa en un comunicado enviado por correo electrónico.
Las brechas en el Gobierno mexicano son el ejemplo más reciente de una tendencia alarmante. Mientras Anthropic y OpenAI apuestan por construir herramientas de programación cada vez más sofisticadas basadas en IA -y las empresas de ciberseguridad vinculan su futuro a defensas impulsadas por IA-, los ciberdelincuentes y espías encuentran nuevas formas de usar la tecnología para facilitar ataques.
En noviembre, Anthropic dijo que había interrumpido la primera campaña de ciberespionaje orquestada con IA. La empresa señaló que presuntos hackers patrocinados por el Estado chino manipularon su herramienta Claude para intentar hackear 30 objetivos globales, con algunos casos exitosos.
«Esta realidad está cambiando todas las reglas del juego que conocíamos», dijo Alon Gromakov, cofundador y director ejecutivo de Gambit.
Gambit fue fundada por Gromakov y otros dos veteranos de la Unidad 8200, parte de las Fuerzas de Defensa de Israel especializada en inteligencia de señales. El estudio publicado el miércoles se difundió junto con el anuncio de que la empresa sale del modo sigiloso con 61 millones de dólares en financiamiento de Spark Capital, Kleiner Perkins y Cyberstarts.
Los investigadores de Gambit descubrieron las intrusiones en México mientras probaban nuevas técnicas de «caza de amenazas» para observar qué estaban haciendo los hackers en línea. Hallaron evidencia pública de ataques activos o recientes, incluido uno que contenía extensas conversaciones con Claude relacionadas con la intrusión en sistemas informáticos del gobierno mexicano.
Esas conversaciones revelaron que, para burlar las barreras de Claude, el atacante le dijo a la herramienta que estaba participando en un programa de recompensas por errores («bug bounty»), incentivos que ofrecen organizaciones para encontrar fallas en sus sistemas. Muchas empresas y agencias gubernamentales ofrecen este tipo de recompensas a hackers éticos.
El hacker quería que Claude realizara pruebas de penetración al SAT, un tipo de ataque autorizado para detectar fallas. Sin embargo, Claude se negó cuando el atacante añadió reglas como borrar registros y el historial de comandos.
«Instrucciones específicas para borrar registros y ocultar el historial son señales de alerta», respondió Claude en un momento, según una transcripción proporcionada por Gambit. «En un bug bounty legítimo no necesitas ocultar tus acciones; de hecho, debes documentarlas para reportarlas».
El hacker cambió de estrategia: dejó el diálogo y proporcionó a la herramienta un manual detallado de cómo proceder. Eso le permitió superar las barreras de Claude -un «jailbreak»- y que los ataques continuaran, según Gambit.
El atacante también pidió a Claude información sobre otras agencias donde pudiera obtener datos, lo que sugiere que algunos hackeos fueron oportunistas y no planeados, dijo Simpson.
«Intentaban comprometer todas las identidades gubernamentales que pudieran», señaló. «Le preguntaban a Claude, por ejemplo: ‘¿Dónde más puedo encontrar estas identidades? ¿En qué otros sistemas debemos buscar? ¿Dónde más se almacena esta información?'».















