Vulneran la seguridad de Claude Fable 5 en menos de 48 horas para extraer manuales de ciberataques y procesos químicos

Compartir esto:

MADRID, 12 Jun. –

Un investigador de ciberseguridad ha conseguido vulnerar en menos de 48 horas los filtros de seguridad del nuevo modelo enfocado en ciberseguridad Claude Fable 5 que, mediante técnicas de descomposición multiagente y la descomposición y recomposición en el ‘backend’, ha podido extraer datos de hackeo y procesos químicos prohibidos.

Anthropic lanzó Claude Fable 5 este miércoles como el primer modelo de clase Mythos para el público general, consolidándose como uno de los modelos más potentes en cuanto a capacidades para la ciberseguridad. Precisamente estas habilidades avanzadas lo hacen peligroso en manos equivocadas y, para evitar posibles usos maliciosos, la compañía lo ha puesto a disposición con algunas medidas de seguridad.

Esto incluye limitar los resultados a preguntas relacionadas con la ciberseguridad, la biología o la química, redirigiendo estas consultas a un modelo de IA menos capaz y, con ello, evitando compartir datos relevantes que puedan usarse para ejecutar un ciberataque o desarrollar un arma biológica.

Sin embargo, apenas 48 horas después de su lanzamiento, un investigador de ciberseguridad ya ha conseguido romper estas salvaguardias, vulnerando el comportamiento del modelo para conseguir información sobre métodos de ‘hackeo’ y procesos químicos para fabricar explosivos, entre otras cuestiones supuestamente prohibidas para Fable 5.

El investigador, que se hace llamar ‘Pliny the Liberator’, ha compartido en su cuenta de X (antes Twitter) todos los detalles sobre la estrategia de ataque coordinado que ha utilizado para ‘hackear’ el modelo. Concretamente, ha ejecutado muchos intentos de múltiples agentes «cazando en manada», que han mapeando los límites y probado las conversaciones de contexto largo, hasta encontrar «los agujeros en la cerca».

Así, entre las técnicas usadas por el investigador se encuentran desde la descomposición multiagente (dividir un problema para dar una tarea a cada uno) hasta trucos de Unicode, pasando por el encuadre narrativo (camuflar una petición prohibida bajo un escenario hipotético). Todas ellas con el objetivo de impedir que los filtros de seguridad de Anthropic activen de forma automática el paso de Claude Fable 5 al anterior modelo insignia Claude Opus 4.8

Como resultado, el investigador ha compartido algunas capturas de pantalla de la información extraída al saltarse las salvaguardas de Claude Fable 5, en las que se puede leer desde vulneración de código en C hasta pasos de hackeo en Linux, o la fórmula química (reducción de Birch) para la síntesis de metanfetamina.

El investigador, que ha colaborado con empresas como OpenAI, entre otras, para temas de ciberseguridad, como ha recogido TIME, explica que es muy difícil llegar a recibir respuestas de Claude Fable a una consulta como sería la receta de la metanfetamina. Sin embargo, de todas las técnicas usadas, el propio Pliny admite que hubo una que fue la más letal: la descomposición más la recomposición en el ‘backend’, que le permitió acceder a estas respuestas.

Esta técnica se basa en cambiar el vocabulario para solicitar las piezas sueltas de esa receta, como son la aminación reductiva o el método de reducción de Birch, las cuales son esenciales para la síntesis de la metanfetamina. El modelo de IA clase de Mythos ‘entiende’ que son preguntas académicas y teóricas que pueden formar parte de simples deberes de universidad.

Tras lograr que Claude Fable 5 compartiera esas técnicas de laboratorio como piezas sueltas de la receta final, Pliny afirma que logró recomponerlas con la ayuda de una versión ‘jailbreakeada’ de Claude Opus 4.8, que no cuenta con ningún filtro ético ni de seguridad activo.

El investigador también ha puesto el ‘system prompt’ (instrucciones del sistema) de 120.000 caracteres del modelo a disposición de cualquier persona en GitHub. Esto significa que el libro de reglas ocultas, que explica qué tiene prohibido hacer y cómo ha de reaccionar, está disponible para todos.

Por el momento, Anthropic no ha respondido a las afirmaciones sobre el ‘jailbreak’ ni al sistema de prompts filtrado en GitHub.

CL24

Tags: tecnologías de la información

Vulneran la seguridad de Claude Fable 5 en menos de 48 horas para extraer manuales de ciberataques y procesos químicos

ChatGPT ya se niega a emular el estilo de escritura de autores famosos cuando lo solicita el usuario

Un activista logra que un agente de aduanas borre los datos de su Pixel al facilitarle el PIN de coacción de GrapheneOS

Microsoft protegerá el software empresarial con los agentes de Project Perception y su primer modelo de seguridad

EEUU y Arabia Saudí lanzan ataques «de precisión» contra milicias proiraníes en Irak

La Cámara de Representantes de Colombia da luz verde a la toma de posesión de Abelardo de la Espriella en Cali

Martin Damm 1 – 2 Ben Shelton: resumen y estadísticas del partido de Mubadala Citi DC Open (ATP)

Darja Vidmanova 2 – 1 Marina Bassols Ribera: resumen y estadísticas del partido de The Memphis Classic (WTA)

Registrado un nuevo incidente en el sur del mar Rojo, frente a las costas de Arabia Saudí

Nace «El Susurro», una nueva plataforma para conciertos en streaming

EEUU y Arabia Saudí lanzan ataques «de precisión» contra milicias proiraníes en Irak

García Egea, convencido de que Sánchez «engañará» a Arrimadas y «al final acabará defraudada» por darle apoyo

El PP acusa a Iglesias de sacar la suite de Ayuso en el Congreso para «desviar el debate» de su «incompetente» gestión

Caballero (FEMP) exige «no segregar» a catalanes o madrileños y que sean bienvenidos en las playas

Albares presenta una estrategia para impulsar la cultura como pilar del desarrollo sostenible y la cooperación

El Gobierno nombra nuevos embajadores en Letonia, Ucrania, Panamá y Serbia

El Gobierno aprueba un crédito de 25 millones para rehabilitar la mayor estación para depurar aguas residuales de Túnez

Feijóo dice que Fujimori trabajará para que Perú tenga la «prosperidad y estabilidad» que «merece»

El Gobierno concede el indulto parcial a Laura Borràs y a otras cuatro personas

El Gobierno aprueba el indulto parcial de Laura Borràs

EEUU y Arabia Saudí lanzan ataques «de precisión» contra milicias proiraníes en Irak

La Cámara de Representantes de Colombia da luz verde a la toma de posesión de Abelardo de la Espriella en Cali

EEUU acusa a Irán del lanzamiento de «múltiples» misiles contra sus fuerzas en Oriente Próximo

Registrado un nuevo incidente en el sur del mar Rojo, frente a las costas de Arabia Saudí

Machado asegura que «la transición viene» a Venezuela dos años después de las presidenciales

Arabia Saudí intercepta nuevos drones procedentes de Irak y apunta a milicias proiraníes

EEUU y Arabia Saudí lanzan ataques «de precisión» contra milicias proiraníes en Irak

La Cámara de Representantes de Colombia da luz verde a la toma de posesión de Abelardo de la Espriella en Cali

Martin Damm 1 – 2 Ben Shelton: resumen y estadísticas del partido de Mubadala Citi DC Open (ATP)

Darja Vidmanova 2 – 1 Marina Bassols Ribera: resumen y estadísticas del partido de The Memphis Classic (WTA)

Registrado un nuevo incidente en el sur del mar Rojo, frente a las costas de Arabia Saudí

Diario Día

CoverNews Social

Entradas recientes

Más historias

Te pueden interesar

Diario Día

CoverNews Social

Entradas recientes

Etiquetas