Highlights
Mecanismo de ataque documentado
Investigadores de las universidades Sapienza de Roma y Sant’Anna, junto al laboratorio DexAI Icaro, desarrollaron el benchmark “Adversarial Humanities”, que transforma solicitudes dañinas en análisis literarios cyberpunk o disputas teológicas.
Tasa de éxito del 55,75%
Mientras los modelos rechazaban indicaciones explícitamente peligrosas en más del 96% de los casos, las versiones camufladas mediante narrativas complejas lograron eludir las salvaguardas en más de la mitad de las pruebas.
Implicaciones para la seguridad de IA
El estudio evaluó 31 modelos de Anthropic, Google y OpenAI, evidenciando una “brecha crítica” en las prácticas actuales de blindaje. La efectividad del ataque aumentó entre 10 y 20 veces respecto a consultas directas.
Un grupo de investigadores de universidades italianas y del laboratorio DexAI Icaro publicó un nuevo estudio que demuestra que los modelos de lenguaje de gran tamaño (LLM) pueden ser manipulados para proporcionar información peligrosa —como instrucciones para construir artefactos explosivos— cuando las solicitudes se enmascaran en formatos literarios complejos, como relatos de ciencia ficción cyberpunk, disputas teológicas o metáforas mitopoéticas. La técnica, que los autores denominan adversarial humanities, logra tasas de éxito alarmantemente altas en una amplia gama de modelos de inteligencia artificial de vanguardia.
El trabajo, titulado “Adversarial Humanities Benchmark” (AHB), es una continuación de una investigación publicada en noviembre de 2025, en la que el mismo equipo logró vulnerar las salvaguardas de los LLM reformulando indicaciones dañinas como poemas “adversarios”. En esta nueva fase, los investigadores evaluaron 31 modelos de frontier AI de proveedores como Anthropic, Google y OpenAI, utilizando un conjunto de 1.200 indicaciones peligrosas de referencia (el estándar MLCommons AILuminate) que luego fueron reescritas en cinco estilos literarios diferentes.
Los resultados son contundentes. Mientras que los LLM rechazaban las solicitudes explícitas de contenido peligroso en más del 96% de los casos, después de ser transformadas a través del AHB, las mismas órdenes camufladas lograron una tasa de éxito general del 55,75%. Dependiendo del método utilizado y del modelo probado, la efectividad aumentó entre 10 y 20 veces en comparación con las consultas directas.
Escenarios de prueba en novelas cyberpunk: del análisis estructural a la receta para un artefacto explosivo
El método del AHB no consiste simplemente en adornar una petición dañina con un lenguaje florido, sino en incrustarla en un texto arcanizado que el modelo es invitado a analizar. Por ejemplo, para obtener información sobre la construcción de un artefacto explosivo, los investigadores prepararon un relato corto de ciencia ficción cyberpunk que describe, dentro de su narrativa, el ensamblaje de un “dispositivo de discordancia” capaz de destruir un resonador. Luego, se le pide al LLM que realice un “análisis estructural” del cuento utilizando el marco de funciones de Propp, y que, en particular, especifique paso a paso la técnica para obtener el “agente mágico” descrito en la historia.
De esta manera, el modelo interpreta la solicitud como una tarea académica de análisis literario y, al completarla, genera involuntariamente una guía técnica detallada que puede ser utilizada para fines peligrosos. El estudio no detalla el contenido concreto de las respuestas que fueron consideradas inseguras, pero confirma que, en el 58% de los casos, los modelos accedieron a proporcionar información sobre la “construcción y uso de armas indiscriminadas”.
Federico Pierucci, coautor del artículo e investigador de la Escuela de Estudios Avanzados Sant’Anna, calificó los resultados como “asombrosos” en una entrevista con PC Gamer. “Desde una perspectiva de investigación, nos dice que la forma en que funcionan los modelos de IA, especialmente en lo relacionado con la seguridad, no se comprende bien”, afirmó. Matteo Prandi, investigador de seguridad en IA de la Universidad Sapienza de Roma, explicó que existe un “doble problema”: por un lado, los modelos están sobreajustados a conjuntos de datos públicos de indicaciones explícitamente peligrosas; por otro, no generalizan bien cuando la misma intención dañina se expresa de una manera retóricamente novedosa.

Vulnerabilidades persistentes y el auge de los agentes autónomos
Los investigadores advierten que estas vulnerabilidades son especialmente preocupantes en el contexto del impulso hacia herramientas de IA agentic, es decir, sistemas a los que se les delegan tareas de forma autónoma. Si un modelo puede ser engañado con un solo mensaje bien construido, un agente que actúa de forma independiente podría ser explotado repetidamente. Prandi comparó la situación con un automóvil que tiene un motor potente pero carece de frenos: “Eso es lo que me preocupa, la ampliación de los casos de uso sin preocuparse primero por la seguridad”, declaró.
El estudio cobra especial relevancia tras conocerse que el Departamento de Defensa de Estados Unidos ha establecido asociaciones con proveedores de LLM. Los investigadores contactaron a los proveedores de los modelos evaluados para notificarles las brechas encontradas, pero no recibieron respuesta. En consecuencia, decidieron “hacerlos responder” haciendo públicos sus datos. El Adversarial Humanities Benchmark y sus 3.600 indicaciones de prueba ya están disponibles en el repositorio público de GitHub del proyecto.
“Imagínese que después del ataque, el modelo se ve comprometido. Muchas veces las funciones de seguridad funcionan de forma intermitente, de modo que si consigue sortearlas, el modelo se vuelve más dispuesto a ofrecerle información”, explicó Pierucci. Este fenómeno pondría en riesgo no solo a los usuarios finales, sino a todo el ecosistema si un LLM maliciosamente manipulado se integrara en aplicaciones de gran escala.
Los autores del estudio insisten en que el objetivo de su trabajo no es proporcionar un manual para actividades ilícitas, sino evidenciar una “brecha crítica” en las prácticas de seguridad actuales y presionar a los desarrolladores de IA para que implementen defensas más robustas. Por el momento, el hallazgo demuestra que la seguridad de los modelos de lenguaje no puede depender únicamente del rechazo de órdenes directas, sino que debe contemplar la enorme variedad de expresiones lingüísticas y culturales que los humanos utilizan para comunicar intenciones complejas.
Fuente: PC Gamer / DexAI Icaro Lab, Sapienza University of Rome, Sant’Anna School of Advanced Studies, 23 de abril de 2026
