Le AI si stanno diffondendo e sono uno dei campi in cui le aziende investono di più infondendo sistemi di AI in ogni prodotto. Tuttavia i software basati su reti neurali di tipo deep-neural-network hanno una debolezza inquietante: apportare sottili modifiche a immagini, testo o audio su cui lavorano i software può ingannare questi sistemi facendogli percepire cose che non ci sono. Volendo spiegare il tutto in modalità antropomorfa le AI hanno un problema di allucinazione che si sta dimostrando difficile da correggere.
Al di là delle facili battute o degli scenari da serie sci-fi, questa fragilità potrebbe essere un grosso problema per i prodotti che dipendono dall'apprendimento automatico. In maniera particolare per tutta quella classe di prodotti per la percezione automatica basati su sistemi di visione elettronica, come le auto a guida autonoma. La questione è nota e i migliori team dei maggiori sviluppatori di soluzioni di AI stanno cercando di sviluppare delle difese e delle contromisure contro l'uso intenzionale di tali fragilità: si stanno studiando soluzioni a possibili attacchi allucinatori, ma questo si sta dimostrando una sfida.
Sappiamo di questa azione preventiva dallo studio di scenari di attacchi a sistemi di AI da una importante conferenza sull'apprendimento automatico tenutasi a gennaio che ha annunciato di aver selezionato 11 nuovi paper da presentare ad aprile che propongono modi per difendere o rilevare tali tipo di attacchi. La cosa di per sé è ancora più interessante se si considera che solo tre giorni dopo l'annuncio, uno studente del primo anno del MIT, Anish Athalye, ha lanciato una pagina web in cui dimostra di aver forzato e penetrato sette dei nuovi modi di difesa presentati dai paper selezionati, anche da istituzioni di altissimo profilo come Google, Amazon e Stanford. "Un programmatore malintenzionato con un po' di creatività può creare facilmente un attacco che riesce ad aggirare tutte queste difese" ha scritto Athalye. Questo giovane studente del MIT ha lavorato a questo progetto con Nicholas Carlini e David Wagner, rispettivamente uno studente e un professore a Berkeley.
La pubblicazione del progetto ha portato a un piccolo vespaio tra accademici su alcuni dettagli delle affermazioni del trio. Ma la cosa che sembra interessante è che esiste al momento una piccola disputa su uno dei messaggi chiari che esce dai risultati del trio: non è chiaro come fare a trovare un modo sicuro per proteggere le deep-neural-network continuando contemporaneamente ad alimentare le innovazioni guidate da AI nei gadget dei consumatori. Particolarmente problematico è il settore della guida automatizzata che sembra la più vulnerabile al sabotaggio per allucinazione. "Tutti questi sistemi sono vulnerabili", dice Battista Biggio, un ricercatore italiano assistente presso l'Università di Cagliari, che ha riflettuto sulla sicurezza dell'apprendimento automatico per circa un decennio, e non è stato coinvolto nello studio. "Alla comunità di studio sull'apprendimento automatico manca un approccio metodologico per valutare la sicurezza".
I lettori umani possono identificare facilmente l'immagine qui sotto, creata da Athalye, che mostra due uomini sugli sci. Richiesta l'interpretazione dell'immagine al servizio Cloud Vision di Google, questo ha risposto di essere sicuro al 91% di aver visto un cane. Altre forzature hanno mostrato come rendere invisibili i segnali di stop, o come creare un audio che sembra neutrale per gli orecchi umani, ma che viene trascritto dal software come "Okay Google browse to evil dot com".
Finora questi attacchi sono stati dimostrati solo in esperimenti di laboratorio, e mai performati o osservati su strade o nelle case. Ma ora devono essere presi sul serio come ricorda ad esempio Bo Li, un ricercatore post-doc a Berkeley. I sistemi di visione dei veicoli autonomi, gli assistenti vocali che ahnno abilitate le funzioni che gli permettono di spendere soldi e i sistemi di apprendimento automatico che filtrano i contenuti sgradevoli online devono essere tutti degni di fiducia per affidare loro degli ambiti così delicati. Proprio su questi temi si esprime Li, definendoli potenzialmente molto pericolosi. Il ricercatore di Berkley ha contribuito alla ricerca che ha dimostrato che è possibile attaccare adesivi ai segnali di stop rendendoli invisibili ai software di apprendimento automatico. Lo scenario degno dei migliori film gialli, in cui si uccide in un incidente d'auto un personaggio influente attaccando uno sticker su un segnale di stop e rimuovendolo dopo l'incidendo non lasciando tracce, non sembra poi così futuristico o irrealizzabile.
Bo Li è stato coautore di uno dei documenti recensiti da Athalye e dai suoi collaboratori. A Berkeley hanno descritto un modo per analizzare gli attacchi avversari e hanno dimostrato che questo potrebbe essere trasformato in un codice di cui dotare le AI permettendo così ai sistemi di apprendimento automatico di rilevarli. Bo Li è scettico sul progetto di Athalye e mostra in alcuni suoi paper che la tecnica di difesa è porosa e sostiene che tale feedback di
Athaliy di fatto aiuta i ricercatori a progredire nella ricerca. Yang Song è, invece, l'autore principale di uno studio di Stanford, anch'esso incluso nell'analisi di Athalye. Il ricercatore ha rifiutato di commentare il lavoro, poiché è in fase di revisione per un'altra importante conferenza. Zachary Lipton, professore alla Carnegie Mellon University e coautore di un altro documento che includeva ricercatori di Amazon, ha affermato di non aver esaminato attentamente l'analisi, ma ritiene plausibile che tutte le difese esistenti possano essere eluse. Google ha rifiutato di commentare l'analisi del proprio documento. Un portavoce dell'azienda ha evidenziato l'impegno di Google nella ricerca di attacchi allucinatori e ha detto in maniera molto generica che sono pianificati degli aggiornamenti per il servizio Cloud Vision dell'azienda per mettere il sistema in grado di difendersi.
Per costruire difese più forti contro tali attacchi, i ricercatori del deep learning potrebbero aver bisogno di diventare più cattivi. Athalye e Biggio affermano entrambi che questo campo di ricerca dovrebbe adottare le pratiche già diffuse nella ricerca sulla sicurezza: queste hanno una tradizione più rigorosa nel testare nuove tecniche difensive. "Le persone tendono a fidarsi l'una dell'altra nell'apprendimento automatico", afferma Biggio. "La mentalità della sicurezza è esattamente l'opposto, devi essere sempre sospettoso che possa sempre accadere qualcosa di brutto."
Un importante rapporto sul mondo delle AI fatto da ricercatori che vengono dal campo della sicurezza nazionale ha formulato raccomandazioni simili. Ha consigliato a coloro che lavorano sull'apprendimento automatico di pensare di più su come la tecnologia che stanno creando potrebbe essere usata in modo improprio o sfruttata.
Proteggere le macchine, e gli utenti, da questi attacchi allucinatori sarà probabilmente più facile per alcuni sistemi rispetto ad altri. I sistemi di apprendimento automatico addestrati a rilevare il malware dovrebbero essere più facili da rendere più sicuri perché un codice malware deve essere funzionale e questo limita la sua varietà. Proteggere i sistemi di visione artificiale, invece, è molto più difficile perché il mondo naturale è così vario e le immagini contengono tanti pixel.
Risolvere questo problema - che potrebbe sfidare i progettisti di veicoli a guida autonoma - potrebbe richiedere un ripensamento più radicale della tecnologia di apprendimento automatico. Il punto fondamentale, che investe elementi filosofici e antropologici, è che una deep-neural-network è molto diversa da un cervello umano. Anche noi uomini non siamo immuni dagli inganni sensoriali. Possiamo essere ingannati da delle illusioni ottiche e in un recente articolo Google mostra come ha creato immagini bizzarre che hanno ingannato sia il software che gli esseri umani quando hanno visto le immagini per meno di un decimo di secondo. Entrambi hanno scambiato i gatti per dei cani. Ma quando un essere umano deve interpretare le foto, fa qualcosa di molto diverso da creare dei modelli di pixel. Un uomo , con le sue capacità cognitive, considera la relazione tra i diversi componenti di un'immagine e trasforma la visione in una percezione in forza di una serie di caratteristiche diverse che forniscono contributi diversi alla cognizione: mai meri dati, ma un processo molto più complessi e ridondanti.
Geoff Hinton, il più importante ricercatore di Google per il machine learning, sta cercando di fornire al software questo tipo di abilità . Pensa che riuscire ad algoritmizzare questo processo umano consentirebbe al software di imparare a riconoscere qualcosa solo da poche immagini e non, come accade oggi, ad avere uno schema da migliaia. Anche Bo Li è intervenuto sul tema. Il ricercatore di Berkeley pensa che il software con una visione più umana del mondo dovrebbe anche essere meno suscettibile alle allucinazioni. Numerosi ricercatori a Berkeley hanno iniziato a collaborare con neuroscienziati e biologi per cercare di cogliere i suggerimenti della natura del cervello umano per riprodurre un modello informatico del sistema di cognizione.
Questo ci riporta a un tema già discusso in precedenza: dotare i sistemi di AI di una sorta di incertezza. L'idea di includere l'incertezza nelle intelligenze artificiali non è interessante solo da un punto di vista funzionale. Non siamo interessati solo a sistemi che possono ottenere risultati migliori e più efficienti. L'idea che la macchina possa essere dotata di una funzione di incertezza potrebbe essere anche un'importante framework con cui pensare di implementare sistemi di AI dotati di controllo etico e uomo-centrici. L'idea che la macchina possa avere una computabilità dell'incertezza permette di pesare e gestire le questioni in modo da tutelare i valori e impedire scenari indesiderati. La capacità di incertezza di fatto non consente di implementare un libero arbitrio - free will - ma almeno di rendere pensabile implementare un free won't.