Anthropic lancia Claude Fable 5 con nuove protezioni di sicurezza

Claude Fable 5 è arrivato come nuovo modello di punta pensato per attività complesse, con un’attenzione particolare alla sicurezza fin dalla progettazione. Per chi vuole capire subito la novità, il punto chiave è semplice: Anthropic ha introdotto un modello più potente, ma lo ha affiancato a meccanismi di contenimento per limitare l’uso improprio in ambiti sensibili.

Il rilascio segna un passo importante perché il modello non si limita a migliorare le prestazioni: cambia anche il modo in cui vengono gestite le richieste rischiose. In pratica, quando una domanda tocca temi delicati, il sistema può deviare l’interazione verso un modello meno capace e più controllato, così da ridurre la possibilità di abusi.

Cosa cambia con Claude Fable 5

Claude Fable 5 viene presentato come il primo modello disponibile pubblicamente nella nuova classe Mythos, un livello di capacità superiore alla linea Claude Opus. Secondo Anthropic, questa categoria raggiunge risultati di alto livello su molti benchmark, con vantaggi più evidenti nei compiti lunghi, complessi e articolati in più passaggi.

La novità non riguarda solo la potenza. Anthropic descrive Mythos come una classe di modelli particolarmente abile nell’individuare e sfruttare vulnerabilità software e nel supportare flussi di lavoro di tipo agentic hacking, cioè sequenze in cui un sistema automatizzato può combinare ricognizione, scoperta, movimento laterale e sviluppo dell’exploit lungo l’intero ciclo di attacco.

Proprio per questo, il lancio è costruito attorno al concetto di controllo. Invece di bloccare semplicemente alcune richieste, Fable 5 può trasferirle a un modello meno avanzato quando rileva aree ad alto rischio.

Come funzionano le protezioni

Anthropic ha introdotto un secondo livello di sicurezza composto da classificatori dedicati. Questi sistemi intercettano richieste legate a cybersecurity, biologia, chimica o distillazione del modello e, se necessario, assegnano la conversazione a Claude Opus 4.8 invece di lasciare rispondere Fable 5.

Gli utenti vengono avvisati quando avviene questo passaggio di fallback. L’azienda afferma di aver impostato i classificatori in modo prudente, accettando che possano intercettare anche alcune richieste innocue. Secondo i dati comunicati, però, il fallback si attiva in meno del 5% delle sessioni, il che significa che oltre il 95% delle interazioni usa la piena capacità del modello.

Questa scelta mostra una logica precisa: il sistema non tratta tutte le richieste sensibili nello stesso modo, ma cerca di distinguere tra uso legittimo e uso potenzialmente pericoloso. Per gli utenti finali, questo si traduce in una maggiore continuità di servizio; per i team di sicurezza, in un controllo più stretto sulle funzioni più delicate.

Risultati delle valutazioni di sicurezza

Sul fronte difensivo, Anthropic riferisce che le valutazioni interne hanno mostrato una buona efficacia dei classificatori nel bloccare progressi significativi su attività offensive. L’azienda ha inoltre organizzato un bug bounty esterno che, dopo oltre 1.000 ore di test, non ha prodotto jailbreak universali. Anche gruppi esterni di red teaming non avrebbero individuato jailbreak universali nei compiti agentici a lungo termine.

Resta però una nota importante: il UK AI Safety Institute avrebbe raggiunto un progresso iniziale verso un jailbreak entro una finestra di test molto breve. In parallelo, un partner esterno avrebbe descritto le difese di Fable come le più robuste tra i modelli testati, con zero conformità a richieste dannose in singolo turno, anche quando queste includevano pianificazione di attacchi, sviluppo di exploit o elusione delle difese e venivano combinate con 30 tecniche pubbliche di jailbreak.

Nel complesso, il quadro suggerisce un sistema che non elimina completamente il rischio, ma lo riduce in modo significativo attraverso più barriere sovrapposte.

Claude Mythos 5 per difensori e infrastrutture critiche

Accanto a Fable, Anthropic propone anche Claude Mythos 5, cioè lo stesso modello di base ma con i controlli cyber rimossi solo per un gruppo ristretto di difensori e operatori di infrastrutture. Questa versione è destinata a contesti in cui la capacità offensiva può essere utile per la difesa, ad esempio per analisi, simulazioni controllate e protezione di sistemi complessi.

La distribuzione iniziale avviene tramite Project Glasswing, in collaborazione con il governo degli Stati Uniti, e il modello viene descritto come dotato delle capacità di cybersecurity più forti al mondo. L’accesso, secondo quanto comunicato, dovrebbe ampliarsi nel tempo attraverso un programma di trusted access.

Per i professionisti della sicurezza, questo significa che Anthropic sta separando sempre di più il piano dell’uso generale da quello dell’uso specialistico. La stessa base tecnologica può quindi essere configurata in modo molto diverso a seconda del tipo di utente e del rischio operativo.

Prezzi e disponibilità

Anthropic ha fissato il prezzo di entrambi i modelli a 10 dollari per milione di token in input e 50 dollari per milione di token in output. Per la nuova classe Mythos è inoltre previsto un requisito di conservazione dei dati di 30 giorni per tutto il traffico, ma solo per finalità di sicurezza, come il rilevamento di jailbreak nuovi, attacchi multi-richiesta e falsi positivi. I dati non vengono usati per l’addestramento.

Gli sviluppatori possono già usare claude-fable-5 tramite la Claude API. Questo rende il modello immediatamente accessibile a team che vogliono integrare capacità avanzate nei propri flussi di lavoro, purché accettino il perimetro di sicurezza previsto dalla piattaforma.

Perché questa uscita è rilevante

Il lancio di Fable 5 è interessante per tre motivi principali. Primo, mostra che la corsa ai modelli più capaci sta entrando in una fase in cui le prestazioni non bastano più da sole: anche la governance della sicurezza diventa un elemento del prodotto. Secondo, evidenzia che l’uso duale dell’AI non è più un tema teorico, ma un criterio concreto di progettazione. Terzo, suggerisce che le future piattaforme di intelligenza artificiale potrebbero adottare sempre più spesso sistemi dinamici di routing e classificazione per decidere come rispondere, non solo se rispondere.

Per aziende, ricercatori e team di sicurezza, questo significa valutare non soltanto la qualità delle risposte del modello, ma anche le regole che ne governano l’accesso, l’archiviazione dei dati e i limiti di utilizzo.

Technical Deep Dive

Claude Fable 5 sembra costruito attorno a un’architettura di capability tiering: il modello principale offre massime prestazioni, mentre un layer di policy decide quando degradare la richiesta verso un sistema meno capace. Questo approccio è diverso dal classico filtro “allow/deny”, perché consente di preservare molte interazioni utili senza esporre il livello più potente a input ad alto rischio.

Dal punto di vista operativo, i classificatori citati da Anthropic svolgono una funzione di request triage. Identificano classi di contenuto sensibile, tra cui cybersecurity, biologia, chimica e model distillation, e instradano la sessione verso Claude Opus 4.8 quando il rischio supera una certa soglia. La presenza di un avviso lato utente è rilevante perché introduce trasparenza nel routing, anche se non elimina la possibilità di falsi positivi.

La scelta di conservare per 30 giorni il traffico Mythos-class con finalità esclusivamente di sicurezza indica un uso controllato dei log per rilevare pattern come:

jailbreak emergenti
multi-request attacks
false positive ricorrenti

Sul piano della valutazione, l’assenza di jailbreak universali in oltre 1.000 ore di bug bounty e nei test di red teaming è un segnale forte, ma non equivale a prova definitiva di invulnerabilità. Il fatto che un istituto abbia raggiunto progressi iniziali in un breve intervallo mostra che la resilienza del sistema può dipendere dalla profondità del test, dalla creatività dell’attaccante e dal contesto della richiesta.

La versione per difensori, Claude Mythos 5, suggerisce infine una separazione tra general access e trusted access. In pratica, Anthropic sta probabilmente usando controlli di identità, policy di ammissione e vincoli d’uso per consentire capacità offensive solo in scenari dove il beneficio difensivo supera il rischio di abuso. Per chi sviluppa prodotti o gestisce sicurezza aziendale, il caso Fable 5 è un esempio concreto di come i modelli frontier possano essere messi in produzione con barriere tecniche, logging mirato e controlli contestuali invece di semplici blocchi statici.

Fonte: https://cybersecuritynews.com/anthropic-claude-fable-5/