Il braccio di ricerca del governo degli Stati Uniti per le organizzazioni di intelligence, la IARPA, ha pubblicato un bando in cui si chiede di trovare idee su come rilevare attacchi di tipo "trojan" su sistemi di intelligenza artificiale.
Il bando della IARPA
Nel bando dell'agenzia governativa si legge (la traduzione è mia):
Utilizzando gli attuali metodi di apprendimento automatico, un'intelligenza artificiale (AI) viene addestrata sui dati, apprende le relazioni in tali dati e quindi viene distribuita nel mondo per operare su nuovi dati. Ad esempio, un'intelligenza artificiale può essere addestrata su immagini di segnali stradali, imparare quali assomigliano a segni di stop e limiti di velocità, e quindi essere utilizzato come parte in un'automobile a guida autonoma.
Il problema è che un avversario che può interrompere la pipeline di addestramento può inserire comportamenti Trojan nell'AI. Ad esempio, un AI che impara a distinguere i segnali stradali può essere attaccata in modo che su alcuni segnali di stop con quadrati gialli aggiunti su di essi, questi vengano etichettati come "limite di velocità". Se l'AI così infettata fosse utilizzata in un'auto a guida autonoma, un avversario potrebbe far non rispettare il segnale di stop e far passare l'auto oltre il segnale di stop semplicemente mettendo un piccolo adesivo su di esso (vedi figura sotto).
L'attacco trojan, chiamato anche backdoor o trapdoor attack, si basa sull'allenamento dell'AI per rispondere a un trigger specifico nei suoi input. Nel caso del segnale stradale, il trigger è una nota adesiva. Affinché gli attacchi di trojan siano efficaci, il trigger deve essere raro nel normale ambiente operativo, in modo che non influenzi le prestazioni dell'IA sui set di dati di test o nelle normali operazioni, così da sollevare i sospetti degli utenti umani. Inoltre, il trigger è idealmente qualcosa che l'avversario può controllare nell'ambiente operativo dell'AI, in modo che possano attivare il comportamento del Trojan. In alternativa, il dispositivo d'attivazione potrebbe essere qualcosa che esiste naturalmente nel mondo, ma è presente solo nei momenti in cui l'avversario sa cosa vuole che faccia l'AI.
La specificità degli attacchi di Trojan li differenzia dalla categoria più generale di attacchi di avvelenamento dei dati, in cui un avversario manipola i dati di allenamento di un AI per renderlo generalmente inefficace. Le ovvie difese contro gli attacchi Trojan sono la sicurezza informatica (per proteggere i dati di addestramento) e la pulizia dei dati (per assicurarsi che i dati di addestramento siano accurati). Sfortunatamente, i moderni progressi dell'AI sono caratterizzati da vasti dataset di tipo crowdsourcing (ad esempio 109 punti dati) che sono poco pratici da pulire o monitorare. Inoltre, molte intelligenze artificiali personalizzate sono create dall'apprendimento di trasferimento: prendere un'AI pubblica esistente disponibile online e modificarla leggermente per il nuovo caso d'uso.
I trojan possono persistere in un'AI anche dopo tale apprendimento di trasferimento. La sicurezza dell'IA dipende quindi dalla sicurezza dell'intera pipeline di dati e formazione, che può essere debole o inesistente. Come tale, l'attenzione per il programma TrojAI è sul caso di utilizzo operativo in cui l'intelligenza artificiale è già addestrata: rilevare se un AI ha un cavallo di troia, per determinare se può essere distribuito in modo sicuro.
Alcuni dettagli
Un trojan o trojan horse - in italiano Cavallo di Troia -, nell'ambito della sicurezza informatica, indica un tipo di malware. Il trojan nasconde il suo funzionamento all'interno di un altro programma apparentemente utile e innocuo. L'utente, eseguendo o installando quest'ultimo programma, in effetti attiva anche il codice del trojan nascosto.
Ecco il problema che l'agenzia vuole risolvere: in modo semplificato possiamo dire che un'AI di riconoscimento delle immagini moderna impara dall'analisi di molte immagini di un oggetto. Se si desidera addestrare un algoritmo per rilevare le immagini di un segnale stradale, è necessario alimentarlo con immagini di segnali diverse tra loro e riprese da tutti i diversi angoli possibili. L'algoritmo apprende le relazioni tra i pixel delle immagini e il modo in cui le strutture e i modelli dei segnali di stop differiscono da quelli dei segnali di limite di velocità.
Ora supponiamo che, durante la fase di allenamento dell'AI, un avversario abbia fatto scivolare alcune immagini extra (cavalli di troia) nel rilevatore del limite di velocità, quelli che mostrano segnali di stop con delle note adesive. Ora, se l'avversario vuole ingannare l'intelligenza artificiale modificando il suo comportamento nel mondo reale per pensare che un segnale di stop sia invece un segnale di limite di velocità, in linea teorica gli basta solo mettere una nota adesiva su di esso.
Se immaginiamo questo contesto applicato al mondo delle auto a guida autonoma, potrebbe emergene uno scenario da incubo. Da qui l'interesse dell'agenzia governativa US. Il tipo di strumenti che vuole IARPA (Intelligence Advanced Research Projects Activity) dovrebbe essere in grado di rilevare problemi o anomalie dopo che l'algoritmo è stato addestrato a riconoscere diversi oggetti nelle immagini.
Un nuovo mondo nella sicurezza
Questo non è l'unico tipo di attacco che un'AI può subire o che è pensabile al momento. I ricercatori di sicurezza hanno anche messo in guardia sui difetti intrinseci nel modo in cui l'intelligenza artificiale percepisce il mondo, rendendo possibile alterare oggetti fisici come i segnali di stop per far si che gli algoritmi di intelligenza artificiale producano errori in alcune categorie senza mai creare errori nel modo in cui è stata addestrata, chiamati "esempi in contraddittorio".
Al momento né gli attacchi mediante trojan né gli esempi di contraddittorio sono noti per essere stati utilizzati da parte di malintenzionati nel mondo reale. Tuttavia i ricercatori hanno sempre affermato che attacchi come questi sono sempre più possibili. Anche l'IARPA li sta esaminando e si è data una breve scadenza. Si aspetta che il programma si concluda dopo un massimo di due anni con i primi risultati a disposizione.
Scenari?
L'idea di strade malevole per ingannare le macchine o per inserire delle vere e proprie falle nei sistemi di AI è un salto che non va sottovalutato. Se il governo USA inizia a cercare strumenti efficaci per trovare attacchi, questo significa che la pervasività dei sistemi di AI è non solo un orizzonte intravisto dagli addetti ai lavori ma una realtà che assume una dimensione sempre più strategica. La gestione di questa "rivoluzione intelligente", se così la vogliamo chiamare, chiede una governance efficace. Chiede di creare spazi nella società ove le diverse competenze possano pensare scenari e cercare strumenti per gestire il potere disruptive dell'innovazione e il potere dirompente delle possibili intenzioni malevole di vari attori sociali.La governance delle AI è ora urgente e quanto mai necessaria.