Vulneran la seguridad de Claude Fable 5 en menos de 48 horas para extraer manuales de ciberataques y procesos químicos

Vulneran la seguridad de Claude Fable 5 en menos de 48 horas para extraer manuales de ciberataques y procesos químicos
Compartir esto:

   MADRID, 12 Jun. –

   Un investigador de ciberseguridad ha conseguido vulnerar en menos de 48 horas los filtros de seguridad del nuevo modelo enfocado en ciberseguridad Claude Fable 5 que, mediante técnicas de descomposición multiagente y la descomposición y recomposición en el ‘backend’, ha podido extraer datos de hackeo y procesos químicos prohibidos.

Anthropic lanzó Claude Fable 5 este miércoles como el primer modelo de clase Mythos para el público general, consolidándose como uno de los modelos más potentes en cuanto a capacidades para la ciberseguridad. Precisamente estas habilidades avanzadas lo hacen peligroso en manos equivocadas y, para evitar posibles usos maliciosos, la compañía lo ha puesto a disposición con algunas medidas de seguridad.

Esto incluye limitar los resultados a preguntas relacionadas con la ciberseguridad, la biología o la química, redirigiendo estas consultas a un modelo de IA menos capaz y, con ello, evitando compartir datos relevantes que puedan usarse para ejecutar un ciberataque o desarrollar un arma biológica.

Sin embargo, apenas 48 horas después de su lanzamiento, un investigador de ciberseguridad ya ha conseguido romper estas salvaguardias, vulnerando el comportamiento del modelo para conseguir información sobre métodos de ‘hackeo’ y procesos químicos para fabricar explosivos, entre otras cuestiones supuestamente prohibidas para Fable 5.

   El investigador, que se hace llamar ‘Pliny the Liberator’, ha compartido en su cuenta de X (antes Twitter) todos los detalles sobre la estrategia de ataque coordinado que ha utilizado para ‘hackear’ el modelo. Concretamente, ha ejecutado muchos intentos de múltiples agentes «cazando en manada», que han mapeando los límites y probado las conversaciones de contexto largo, hasta encontrar «los agujeros en la cerca».

   Así, entre las técnicas usadas por el investigador se encuentran desde la descomposición multiagente (dividir un problema para dar una tarea a cada uno) hasta trucos de Unicode, pasando por el encuadre narrativo (camuflar una petición prohibida bajo un escenario hipotético). Todas ellas con el objetivo de impedir que los filtros de seguridad de Anthropic activen de forma automática el paso de Claude Fable 5 al anterior modelo insignia Claude Opus 4.8

   Como resultado, el investigador ha compartido algunas capturas de pantalla de la información extraída al saltarse las salvaguardas de Claude Fable 5, en las que se puede leer desde vulneración de código en C hasta pasos de hackeo en Linux, o la fórmula química (reducción de Birch) para la síntesis de metanfetamina.

   El investigador, que ha colaborado con empresas como OpenAI, entre otras, para temas de ciberseguridad, como ha recogido TIME, explica que es muy difícil llegar a recibir respuestas de Claude Fable a una consulta como sería la receta de la metanfetamina. Sin embargo, de todas las técnicas usadas, el propio Pliny admite que hubo una que fue la más letal: la descomposición más la recomposición en el ‘backend’, que le permitió acceder a estas respuestas.

   Esta técnica se basa en cambiar el vocabulario para solicitar las piezas sueltas de esa receta, como son la aminación reductiva o el método de reducción de Birch, las cuales son esenciales para la síntesis de la metanfetamina. El modelo de IA clase de Mythos ‘entiende’ que son preguntas académicas y teóricas que pueden formar parte de simples deberes de universidad.

    Tras lograr que Claude Fable 5 compartiera esas técnicas de laboratorio como piezas sueltas de la receta final, Pliny afirma que logró recomponerlas con la ayuda de una versión ‘jailbreakeada’ de Claude Opus 4.8, que no cuenta con ningún filtro ético ni de seguridad activo.

   El investigador también ha puesto el ‘system prompt’ (instrucciones del sistema) de 120.000 caracteres del modelo a disposición de cualquier persona en GitHub. Esto significa que el libro de reglas ocultas, que explica qué tiene prohibido hacer y cómo ha de reaccionar, está disponible para todos.

   Por el momento, Anthropic no ha respondido a las afirmaciones sobre el ‘jailbreak’ ni al sistema de prompts filtrado en GitHub.

CL24