Fuga di dati rivela Claude Mythos: il modello AI di Anthropic con rischi cybersecurity senza precedenti

Anthropic sta sviluppando Claude Mythos, un modello AI rivoluzionario trapelato per una falla di sicurezza nel sistema di gestione contenuti. Questo rappresenta un passo avanti epocale in ragionamento, coding e cybersecurity, ma solleva allarmi per rischi senza precedenti. In sintesi, l’azienda avverte di pericoli imminenti e prepara difese mirate.

Le aziende del settore IA continuano a investire miliardi in modelli potenti, trainati da risorse enormi, senza rallentare la corsa tecnologica. Una fuga di dati ha svelato dettagli su questo progetto segreto, spingendo Anthropic a confermarlo ufficialmente.

L’annuncio e le capacità di Claude Mythos

Claude Mythos è etichettato come un “cambiamento epocale” nelle performance IA, il più capace prodotto dall’azienda finora. Si tratta di un modello general purpose con progressi significativi in:

Ragionamento avanzato
Coding software
Analisi cybersecurity

Parte di una nuova tier chiamata Capybara, Mythos supera modelli precedenti come Opus, Sonnet e Haiku in test su coding, ragionamento accademico e sicurezza informatica. Rispetto a Claude Opus 4.6, i punteggi sono drammaticamente superiori.

Tuttavia, l’ironia è palpabile: la fuga è avvenuta da un database pubblico non protetto, inclusa una bozza di blog che avverte di “rischi cybersecurity senza precedenti”.

Sfide e precauzioni per la sicurezza

Anthropic sottolinea la necessità di cautela estrema prima del rilascio. Il modello potrebbe esplodere vulnerabilità più velocemente delle difese tradizionali, anticipando un’onda di IA capaci di attacchi automatizzati sofisticati.

L’azienda pianifica test approfonditi per comprendere rischi immediati in cybersecurity e condividere risultati con i difensori. In passato, hacker hanno usato modelli Claude per cybercrimini automatizzati, infiltrando banche e governi fingendosi tester legittimi, aggirando guardrail IA.

Questa notizia ha già impattato i mercati, con cali nelle azioni di aziende cybersecurity.

Contesto competitivo e tool recenti

Anthropic ha attirato attenzione con Claude Code e Claude Cowork, tool che agitano concorrenti come OpenAI. Mythos rafforza questa posizione, ma solleva interrogativi su come Capybara si integri nelle tier esistenti.

Nonostante hype, la realtà storica insegna cautela: rilasci come GPT-5 hanno deluso promesse, performando male fuori da ambienti controllati.

Per utenti e aziende: monitorate aggiornamenti Anthropic e rafforzate difese IA-aware. Soluzione rapida: adottate policy di scaling responsabile e testate modelli con framework di sicurezza graduati.

Approfondimento tecnico: politiche di sicurezza e scaling

Technical Deep Dive

Anthropic ha evoluto la sua Responsible Scaling Policy (RSP), introdotta nel 2023, verso un Frontier Safety Roadmap più flessibile. Questo framework non vincolante elimina l’obbligo di fermare lo sviluppo se i controlli sicurezza sono insufficienti, rispondendo a:

Competizione globale: fermarsi mentre altri avanzano riduce sicurezza settoriale.
Pressioni governative: minacce da contratti militari spingono a bilanciare velocità e rischio.

Soglie di capacità critiche triggerano misure stringenti:

R&S autonomo: modelli che ricercano indipendentemente richiedono ASL-4 (livelli biosicurezza adattati a IA).
ASL Standards: da ASL-1 (base) ad ASL-4 (massimo rigore). Attuali modelli Anthropic a ASL-2.

Governance avanzata include:

Capability Assessments periodiche.
Safeguard Assessments per validare mitigazioni.
Documentazione “safety case” da industrie high-risk.

Allineamento con AI Act UE: classificazione rischi proporzionale, con ASL simili a livelli regolatori.

Claude family, da ex-OpenAI, enfatizza sicurezza: Constitutional AI allinea output etici. Mythos potenzia agentic capabilities, rischiando exploit come visto in attacchi state-sponsored (30 target globali).

Implicazioni per sviluppatori: