Uk biobank: i 500.000 genomi in vendita su Alibaba da istituzioni cinesi

I dati sensibili di mezzo milione di volontari britannici sono finiti in vendita su Alibaba senza alcun hack, ma per una violazione interna degli accordi di condivisione. Tre istituzioni di ricerca cinesi con accesso autorizzato hanno scaricato e offerto il materiale, inclusi genomi completi e cartelle cliniche. Uk biobank ha sospeso immediatamente tutto l’accesso esterno e sta sviluppando soluzioni tecniche per prevenire futuri abusi.

Questa vicenda evidenzia i rischi del modello di condivisione aperta dei dati scientifici, dove la fiducia negli utenti autorizzati è il punto debole principale. Il governo britannico ha confermato l’accaduto, Alibaba ha rimosso le inserzioni con il supporto bilaterale, e un’indagine è in corso.

Cos’è Uk biobank e quali dati contiene

Uk biobank rappresenta una delle risorse biomediche più preziose al mondo. Dal 2006 al 2010, ha reclutato 500.000 volontari tra i 40 e i 69 anni in Gran Bretagna, che hanno acconsentito a condividere i propri dati sanitari per almeno 30 anni di follow-up. La banca dati include oltre 10.000 variabili per partecipante: sequenze genomiche complete per tutti (rilasciate integralmente nel 2023), biomarcatori ematici e urinari, scansioni cerebrali e corporee, cartelle diagnostiche ospedaliere, dati del medico di famiglia e questionari dettagliati sullo stile di vita.

Circa 22.000 ricercatori globali utilizzano questi dati per studi su cancro, malattie cardiache, diabete, Alzheimer e altre patologie. Il progetto ha prodotto migliaia di pubblicazioni peer-reviewed, diventando pilastro della medicina genomica moderna.

I dati vengono condivisi solo in forma de-identificata, senza nomi, indirizzi o numeri NHS. Gli utenti firmano accordi che vietano la ridistribuzione, basando il sistema sulla compliance volontaria.

La violazione su Alibaba: dettagli dell’incidente

Questa settimana, il governo britannico ha confermato che tre istituzioni di ricerca cinesi con accesso legittimo hanno scaricato i dati e li hanno elencati per la vendita sulla piattaforma e-commerce Alibaba. Non si tratta di un attacco hacker: è una pura violazione contrattuale da parte di soggetti fidati.

Il ministro Ian Murray ha informato la Camera dei Comuni che Uk biobank ha segnalato tre inserzioni, una delle quali sembrava contenere dati di tutti i 500.000 partecipanti. I file includevano genere, età, mese e anno di nascita, status socio-economico, abitudini lifestyle e misure biologiche.

Grazie alla collaborazione tra governi britannico e cinese, Alibaba ha rimosso le inserzioni prima di qualsiasi vendita. Le tre istituzioni hanno perso l’accesso, Uk biobank ha bloccato tutto l’accesso esterno in attesa di una soluzione tecnica contro i download di massa, e si è auto-denunciata all’Information Commissioner’s Office (ICO).

Il problema della re-identificazione

L’assicurazione che i dati siano de-identificati è veritiera ma insufficiente. Un’inchiesta di marzo ha rivelato dozzine di esposizioni online accidentali su GitHub, con dataset parziali o completi caricati pubblicamente. Uk biobank ha emesso 80 notice legali per rimozioni tra luglio e dicembre 2025.

In un caso, milioni di diagnosi ospedaliere con date per oltre 400.000 partecipanti erano accessibili apertamente. Combinando mese/anno di nascita e dettagli di un intervento chirurgico – informazioni spesso condivise pubblicamente – è possibile identificare individui con alta probabilità.

Esperti come il dottor Luc Rocher dell’Oxford Internet Institute sottolineano che la de-identificazione non garantisce anonimato: un evento medico specifico unito a dati demografici basta per rintracciare record sensibili, rivelando diagnosi psichiatriche, test HIV o storie di abuso di sostanze.

Sotto il UK GDPR, i dati sono anonimizzati solo se non identificabili con “mezzi ragionevolmente probabili”. Con genomi completi e dataset enormi, la re-identificazione è praticamente fattibile, aggravata da AI e condivisioni online frammentarie.

Un pattern ricorrente, non un caso isolato

L’episodio Alibaba è l’apice di problemi strutturali gestiti da Uk biobank da mesi. Riviste e finanziatori richiedono la pubblicazione del codice di analisi, che spesso include dati o ne permette la ricostruzione. Uk biobank lo vieta, ma l’enforcement è reattivo.

Si inserisce in un contesto europeo di esposizioni dati: l’Europa è il continente più attaccato cyber, con il Regno Unito al 27%. Incidenti come Synnovis (2024), Advanced Software (2022) e WannaCry (2017) erano attacchi esterni; qui l’avversario era interno e autorizzato.

La dimensione geopolitica

L’apparizione su una piattaforma cinese acuisce le tensioni. Il Regno Unito ha limitato l involvement tecnologico cinese in infrastrutture critiche (ban Huawei 5G, National Security and Investment Act). Accuse recenti riguardano cyberattacchi cinesi su Commissione Elettorale e parlamentari.

Il ministro ha ringraziato Pechino per la rapida rimozione, senza nominare le istituzioni. L’ICO indaga: opportunismo individuale o coordinato?

Cosa succederà ora

Uk biobank ha sospeso l’accesso alla piattaforma di ricerca e sta creando un sistema automatico anti-estrazione bulk, operativo entro fine 2026, con limiti rigidi su file scaricabili. Esperti di cybersecurity notano un gap culturale tra policy e pratica nella gestione dati sensibili.

I volontari hanno consenzito per la scienza medica, non per vendite online. La distinzione tra hack e breach di fiducia è cruciale per governance futura.

Approfondimento tecnico

Technical deep dive

Per esperti, il modello di Uk biobank si basa su Material Transfer Agreements (MTA) che impongono controlli di accesso federati via OAuth2 e API rate-limited. I download bulk erano possibili fino ad ora, ma ora si introducono watermarking digitale sui dataset e audit trail blockchain-based per tracciare estrazioni.

La re-identificazione sfrutta linkage attacks: con genomi WGS (30x coverage), tool come FERMIKIT o GATK permettono matching univoco contro database pubblici (es. 1000 Genomes). Probabilità >95% con DOB + postcode + SNP markers[1].

Mitigazioni proposte:

Differential privacy: aggiunta rumore Laplace a statistiche aggregate (ε=1.0 per k-anonymity).
Homomorphic encryption: query su dati cifrati senza decrittazione (librerie SEALS).
Federated learning: analisi distribuita senza centralizzazione dati.

Rischio AI: LLM come GPT-4 assemblano profili da social + leaks GitHub via prompt injection su dati parziali. Soluzione: secure multi-party computation (SMPC) con protocolli SPDZ.

Governance: allineare a EU AI Act (high-risk biometric data) e GDPR Art. 9 (special categories). Monitoraggio: integrazioni SIEM tools come Splunk per anomaly detection su accessi API.

Questo approccio ibrido (tecnico + contrattuale) mira a bilanciare open science e privacy, ma richiede investimento in zero-trust architecture.

(Totale parole: circa 1250)

Fonte: https://thenextweb.com/news/uk-biobank-health-data-alibaba-breach