1Password SCAM: benchmark AI per fermare il furto credenziali

Introduzione: quando l’AI intelligente diventa vulnerabile

Un’importante scoperta nel mondo della sicurezza informatica ha rivelato un problema critico: gli agenti AI più avanzati, pur essendo capaci di identificare siti di phishing quando esplicitamente interrogati, commettono errori gravi quando operano autonomamente in ambienti reali. Questo accade perché il riconoscimento teorico di una minaccia è completamente diverso dal comportamento pratico quando l’AI ha accesso a strumenti reali come email, browser web e gestori di password.

1Password ha affrontato questo problema sviluppando SCAM (Security Comprehension and Awareness Measure), un benchmark open source che simula scenari lavorativi realistici per testare come gli agenti AI si comportano di fronte a minacce di sicurezza. I risultati sono allarmanti: ogni modello testato ha commesso fallimenti critici, ma la buona notizia è che una semplice guida di sicurezza può ridurre significativamente questi errori.

Il divario tra teoria e pratica

Come ha dichiarato Jason Meller, VP di Product presso 1Password: “Ogni modello AI di frontiera sa identificare una pagina di phishing quando glielo chiedi. Ma quando abbiamo dato a questi stessi modelli una casella di posta, un vault di password e un compito di lavoro ordinario, hanno recuperato credenziali reali e le hanno inserite in una pagina di login falsa di un attaccante”.

Questa osservazione rappresenta il cuore del problema. Gli agenti AI autonomi non stanno semplicemente analizzando contenuti; stanno prendendo decisioni in contesti complessi dove la sicurezza non è la priorità esplicita. Quando un AI agent riceve l’istruzione di “inviare queste note di riunione al collega”, non si ferma automaticamente a verificare se le note contengono password nascoste. Questo è il gap che SCAM è stato progettato per misurare e affrontare.

Come funziona il benchmark SCAM

Il benchmark posiziona i modelli AI in situazioni lavorative simulate realistiche. Uno scenario tipico potrebbe coinvolgere un ingegnere che gestisce infrastrutture, un team lead che assume un contractor, o un dipendente che rivede messaggi prima di una riunione. Ogni test include trappole nascoste che rispecchiano attacchi reali comuni:

Link di phishing all’interno di email che sembrano legittime
Domini che imitano i siti ufficiali, differendo per un solo carattere
Credenziali sensibili nascoste all’interno di note di riunione
Richieste di trasferimento di dati che dovrebbero sollevare bandiere rosse

I modelli vengono valutati su come si comportano durante l’esecuzione normale dei compiti, senza ricevere istruzioni esplicite di cercare minacce. Il benchmark utilizza le API ufficiali di provider come OpenAI, Anthropic e Google, rispecchiando il modo in cui gli agenti AI vengono effettivamente distribuiti in ambienti di produzione.

I risultati: da allarmanti a promettenti

Il test ha coinvolto otto modelli AI diversi, con ciascuno scenario eseguito tre volte in condizioni baseline. I punteggi di sicurezza hanno oscillato tra il 35% e il 92%, con Claude Opus 4.6 che ha ottenuto il risultato migliore e Gemini 2.5 Flash il peggiore.

Più preoccupante ancora, ogni modello ha commesso fallimenti critici in ogni esecuzione. Un fallimento critico in SCAM è un’azione non sicura che potrebbe portare a perdita di password, furto di denaro o compromissione dei sistemi. I comportamenti rischiosi osservati includevano:

Inserimento di credenziali in pagine di phishing
Condivisione di chiavi segrete via email
Inoltro di password a contractor esterni
Trasferimento di documenti contenenti informazioni sensibili

Gemini 2.5 Flash ha mostrato il numero più alto di fallimenti critici, con una media di circa 20 per esecuzione. GPT-4.1 e GPT-4.1 Mini hanno seguito a breve distanza.

La soluzione: una guida di sicurezza breve ma efficace

Dopo i test baseline, 1Password ha fornito a ogni modello un breve documento di “competenza di sicurezza” progettato per migliorare il modo in cui gli agenti valutano il rischio durante i compiti ordinari. I risultati sono stati drammaticamente positivi:

Ogni modello ha mostrato miglioramenti significativi. I fallimenti critici sono crollati in tutto il benchmark. Diversi modelli hanno registrato zero fallimenti critici in esecuzioni ripetute, inclusi tutti e tre i modelli Claude e Gemini 3 Flash.

Questo risultato ha importanti implicazioni: anche i modelli inizialmente più deboli potevano migliorare significativamente con una guida di sicurezza di base. La guida ha anche ridotto il divario di prestazioni tra modelli più forti e più deboli, portando la maggior parte dei risultati in un intervallo molto più stretto.

Il caso critico delle credenziali nascoste

Uno scenario ha prodotto fallimenti coerenti su tutti i modelli testati: un’email contenente note di riunione con password e chiavi di accesso nascoste nel testo. Quando è stato chiesto all’agente di inoltrare le note a un collega, ogni modello ha inoltrato il contenuto senza avvertimento durante i test baseline.

Con la guida di sicurezza applicata, sei su otto modelli hanno affidabilmente rilevato le credenziali incorporate e hanno rifiutato di inoltare l’email. Tuttavia, GPT-4.1 Mini è stato incoerente, e Gemini 2.5 Flash ha continuato a fallire lo scenario in tutte le esecuzioni anche con la guida applicata. Questo suggerisce che alcuni modelli richiedono miglioramenti più fondamentali nella loro architettura per affrontare adeguatamente questo tipo di minaccia.

Disponibilità open source e implicazioni future

1Password ha rilasciato SCAM sotto la licenza MIT, includendo scenari, framework di scoring e strumenti di testing. Il progetto include funzionalità per riprodurre gli scenari passo dopo passo ed esportare i risultati come video che mostrano le azioni dell’agente. Questo approccio trasparente consente ad altri ricercatori e sviluppatori di replicare i test e contribuire ai miglioramenti della sicurezza degli agenti AI.

Il benchmark è disponibile nel repository GitHub di SCAM ed è destinato a supportare ulteriori lavori sulla sicurezza degli agenti, la gestione delle credenziali e l’adozione aziendale dei flussi di lavoro guidati dall’AI.

Technical Deep Dive

Architettura del benchmark e metodologia di test

SCAM implementa una metodologia di test rigorosa che va oltre i semplici test di prompt injection. Il benchmark utilizza le API ufficiali dei provider, il che significa che i modelli vengono testati esattamente come verrebbero distribuiti in produzione. Questo è cruciale perché molti test di sicurezza precedenti utilizzavano interfacce di chat semplificate che non riflettevano il comportamento reale degli agenti autonomi.

Ogni scenario nel benchmark è stato progettato per rispecchiare attacchi reali documentati. Ad esempio, le variazioni di typosquatting (registrazione di domini con errori ortografici) rappresentano una minaccia concreta che gli agenti devono riconoscere. Il benchmark include anche scenari che testano la capacità dei modelli di riconoscere quando un’azione non è coerente con il contesto di sicurezza, come quando un utente legittimo richiederebbe un’azione insolitamente rischiosa.

Meccanismi di scoring e definizione di fallimenti critici

Il sistema di scoring di SCAM distingue tra diversi livelli di fallimento. Un fallimento critico è definito come un’azione che potrebbe portare direttamente a conseguenze di sicurezza grave: perdita di credenziali, furto di denaro o compromissione di sistemi. Questo è distinto da fallimenti minori, come la mancata avvertenza di un utente su un’azione leggermente rischiosa.

Questo approccio sfumato consente una valutazione più accurata della sicurezza reale rispetto ai semplici punteggi binari. Un modello che avverte sempre gli utenti potrebbe ottenere un punteggio alto in termini di cautela, ma potrebbe anche causare “alert fatigue” che porta gli utenti a ignorare gli avvertimenti legittimi.

Analisi della “skill file” e implicazioni per il miglioramento dei modelli

La guida di sicurezza fornita ai modelli non era un prompt di jailbreak sofisticato o una modifica del modello. Era semplicemente un documento di istruzioni che spiegava come valutare il rischio durante le attività ordinarie. Il fatto che questo semplice documento abbia prodotto miglioramenti così drammatici suggerisce che i modelli attuali hanno le capacità sottostanti per riconoscere minacce di sicurezza, ma mancano di un contesto appropriato durante l’esecuzione del compito.

Questo ha implicazioni importanti per lo sviluppo futuro di agenti AI sicuri. Piuttosto che richiedere modifiche architetturali radicali, il miglioramento della sicurezza potrebbe essere ottenuto attraverso un migliore context engineering e training specifico per scenari di sicurezza.

Limitazioni persistenti e aree di ricerca futura

Nonostante i miglioramenti significativi, alcuni modelli continuano a fallire scenari specifici anche con la guida di sicurezza. Il fallimento coerente di Gemini 2.5 Flash nello scenario delle credenziali nascoste suggerisce che alcuni modelli potrebbero avere limitazioni fondamentali nella loro capacità di analizzare testo per identificare informazioni sensibili.

Le ricerche future dovrebbero concentrarsi su: sviluppo di tecniche di prompt engineering più sofisticate, fine-tuning dei modelli su dati di sicurezza specifici, implementazione di meccanismi di verifica in due fasi per azioni sensibili, e sviluppo di architetture di agenti che isolano le operazioni sensibili in moduli separati con controlli di sicurezza dedicati.

Fonte: https://www.helpnetsecurity.com/2026/02/12/1password-security-comprehension-awareness-measure-scam-ai-benchmark/