Imagen: la risposta di Google a DALL-E di OpenAI

Paolo Benanti

25 mag 2022Tempo di lettura: 6 min

Google ha presentato Imagen, un sistema di intelligenza artificiale che trasforma le descrizioni di parole in immagini fotorealistiche. Si dice che il generatore di testo-immagine crei immagini più realistiche e realistiche di DALL-E 2 di OpenAI. A differenza dei competitor però Google non ha reso questo modello di intelligenza artificiale disponibile al pubblico.

Il modello di diffusione Imagen produce disegni, dipinti a olio, rendering in CGI e altro ancora (come da immagini qui sotto) sulla base di una richiesta scritta da parte degli utenti. Gli sviluppatori di Imagen, il Google Research's Brain Team, hanno dichiarato di aver raggiunto un fotorealismo senza precedenti grazie ai modelli di trasformazione e di diffusione dell'immagine.

Google sostiene che dei tester umani hanno preferito Imagen a "tutti gli altri modelli" per quanto riguarda la fedeltà dell'immagine e l'allineamento tra immagine e testo. Tuttavia, si è affrettata a precisare Google, Imagen è stato addestrato su set di dati prelevati dal web e quindi può riflettere stereotipi e pregiudizi dannosi.

Una cosa che emerge è che il modello di Montain View ha, però, ottenuto un punteggio inferiore nella generazione di volti umani rispetto ad altri elementi e che mostra un pregiudizio verso le immagini di persone con la pelle più chiara e ritrae professioni che "si allineano agli stereotipi di genere occidentali".

Sempre dalle note di Google sappiamo che, quando genera immagini di eventi, oggetti e attività, Imagen codifica "pregiudizi sociali e culturali". Per questi motivi e altri ancora, Google non ha rilasciato Imagen pubblicamente, anche se consente alle persone di provarlo utilizzando frasi preselezionate sul sito web dedicato.

Non avendo altri elementi, riportiamo quanto scritto nel paper di presentazione di Imagen:

Presentiamo Imagen, un modello di diffusione da testo a immagine con un grado di fotorealismo senza precedenti e un profondo livello di comprensione del linguaggio. Imagen si basa sulla potenza dei modelli linguistici a trasformatori di grandi dimensioni nella comprensione del testo e sulla forza dei modelli di diffusione nella generazione di immagini ad alta fedeltà. La nostra scoperta chiave è che i modelli linguistici generici di grandi dimensioni (ad esempio T5), preaddestrati su corpora di solo testo, sono sorprendentemente efficaci nella codifica del testo per la sintesi di immagini: l'aumento delle dimensioni del modello linguistico in Imagen aumenta sia la fedeltà del campione che l'allineamento immagine-testo molto più che l'aumento delle dimensioni del modello di diffusione dell'immagine. Imagen raggiunge un nuovo punteggio FID allo stato dell'arte di 7,27 sul dataset COCO, senza essersi mai allenato su COCO, e i valutatori umani trovano che i campioni Imagen siano alla pari con i dati COCO stessi nell'allineamento immagine-testo. Per valutare i modelli testo-immagine in modo più approfondito, abbiamo introdotto DrawBench, un benchmark completo e impegnativo per i modelli testo-immagine. Con DrawBench, confrontiamo Imagen con metodi recenti, tra cui VQ-GAN+CLIP, Latent Diffusion Models, GLIDE e DALL-E 2, e scopriamo che i valutatori umani preferiscono Imagen agli altri modelli nei confronti diretti, sia in termini di qualità del campione che di allineamento immagine-testo.

Imagen dimostra l'efficacia dei modelli linguistici frozen pre-addestrati di grandi dimensioni come codificatori di testo per la generazione da testo a immagine utilizzando modelli di diffusione. La nostra osservazione è che la scalatura delle dimensioni dei modelli linguistici ha un impatto significativamente maggiore rispetto alla scalatura delle dimensioni della rete U sulle prestazioni complessive incoraggia le future direzioni di ricerca sull'esplorazione di modelli linguistici ancora più grandi come codificatori di testo. Inoltre, con Imagen sottolineiamo nuovamente l'importanza di una guida priva di classificatori e introduciamo la soglia dinamica, che consente di utilizzare pesi di guida molto più elevati rispetto ai lavori precedenti. Con questi nuovi componenti, Imagen produce campioni 1024×1024 con un fotorealismo e un allineamento con il testo senza precedenti. Il nostro obiettivo principale con Imagen è far progredire la ricerca sui metodi generativi, utilizzando la sintesi testo-immagini come banco di prova. Sebbene le applicazioni dei metodi generativi per l'utente finale rimangano in gran parte escluse, riconosciamo che le potenziali applicazioni a valle di questa ricerca sono varie e possono avere impatti complessi. Da un lato, i modelli generativi hanno un grande potenziale per integrare, estendere e aumentare la creatività umana. I modelli di generazione da testo a immagine, in particolare, hanno il potenziale per estendere le capacità di editing delle immagini e portare allo sviluppo di nuovi strumenti per i professionisti della creatività. D'altro canto, i metodi generativi possono essere sfruttati per scopi malevoli, tra cui le molestie e la diffusione di informazioni errate, e sollevano molte preoccupazioni riguardo all'esclusione sociale e culturale e ai pregiudizi.

Queste considerazioni sono alla base della nostra decisione di non rilasciare il codice o una demo pubblica. Un'altra sfida etica riguarda i requisiti di dati su larga scala dei modelli testo-immagine, che hanno portato i ricercatori a fare molto affidamento su grandi insiemi di dati, per lo più non curati, raccolti sul web. Se da un lato questo approccio ha consentito rapidi progressi algoritmici negli ultimi anni, dall'altro i dataset di questa natura sono stati criticati e contestati in base a diverse dimensioni etiche. Ad esempio, il dibattito pubblico e accademico sull'uso appropriato dei dati pubblici ha sollevato preoccupazioni riguardo alla consapevolezza e al consenso dei soggetti interessati. Le verifiche sui dati hanno rivelato che questi tendono a riflettere stereotipi sociali, punti di vista oppressivi e associazioni dispregiative, o comunque dannose, a gruppi identitari emarginati. L'addestramento di modelli testo-immagine su questi dati rischia di riprodurre queste associazioni e di causare un danno rappresentativo significativo che avrebbe un impatto sproporzionato su individui e comunità che già subiscono emarginazione, discriminazione ed esclusione all'interno della società. Di conseguenza, ci sono molti problemi legati ai dati che devono essere affrontati prima che i modelli text-to-image come Imagen possano essere integrati in modo sicuro nelle applicazioni rivolte agli utenti. Anche se in questo lavoro non affrontiamo direttamente queste sfide, la consapevolezza dei limiti dei nostri dati di addestramento ha guidato la nostra decisione di non rilasciare Imagen per uso pubblico. I dati di addestramento di Imagen sono stati ricavati da diversi set di dati preesistenti di coppie di immagini e alt-text in inglese. Un sottoinsieme di questi dati è stato filtrato per rimuovere il rumore e i contenuti indesiderati, come le immagini pornografiche e il linguaggio tossico. Tuttavia, una recente verifica di una delle nostre fonti di dati, LAION-400M, ha rilevato un'ampia gamma di contenuti inappropriati, tra cui immagini pornografiche, insulti razzisti e stereotipi sociali dannosi. Questa constatazione sostiene la nostra valutazione che Imagen non è adatto all'uso pubblico in questo momento e dimostra anche il valore di verifiche rigorose del dataset e di una documentazione completa del dataset per informare le decisioni conseguenti sull'uso appropriato e sicuro del modello. Imagen si basa anche su codificatori di testo addestrati su dati non curati su scala web, e quindi risente dei pregiudizi sociali e delle limitazioni dei modelli linguistici di grandi dimensioni. Mentre lasciamo un'analisi empirica approfondita dei pregiudizi sociali e culturali codificati da Imagen a un lavoro futuro, le nostre valutazioni interne su piccola scala rivelano diverse limitazioni che guidano la nostra decisione di non rilasciare Imagen in questo momento. In primo luogo, tutti i modelli generativi, compreso Imagen, possono correre il rischio di abbandonare le modalità della distribuzione dei dati, il che potrebbe aggravare ulteriormente le conseguenze sociali dei bias del set di dati. In secondo luogo, Imagen mostra seri limiti nella generazione di immagini che ritraggono persone.

Le nostre valutazioni umane hanno rilevato che Imagen ottiene preferenze significativamente più alte quando viene valutato su immagini che non ritraggono persone, indicando un degrado nella fedeltà dell'immagine. Infine, la nostra valutazione preliminare suggerisce che Imagen codifica diversi pregiudizi e stereotipi sociali, tra cui un pregiudizio generale verso la generazione di immagini di persone con carnagione più chiara e la tendenza delle immagini che ritraggono diverse professioni ad allinearsi agli stereotipi di genere occidentali. Anche quando ci concentriamo sulle generazioni lontane dalle persone, la nostra analisi preliminare indica che Imagen codifica una serie di pregiudizi sociali e culturali quando genera immagini di attività, eventi e oggetti. Mentre c'è stato un ampio lavoro di verifica dei modelli di etichettatura delle immagini e da immagine a testo per forme di pregiudizi sociali, c'è stato relativamente meno lavoro sui metodi di valutazione dei pregiudizi sociali per i modelli da testo a immagine, con la recente eccezione di. Riteniamo che questa sia una strada cruciale per la ricerca futura e intendiamo esplorare valutazioni di riferimento per i bias sociali e culturali nel lavoro futuro, ad esempio valutando se sia possibile generalizzare la metrica di mutua informazione puntuale normalizzata alla misurazione dei bias nei modelli di generazione di immagini. C'è anche una grande necessità di sviluppare un vocabolario concettuale sui potenziali danni dei modelli da testo a immagine, che potrebbe guidare lo sviluppo di metriche di valutazione e informare il rilascio responsabile dei modelli. Ci proponiamo di affrontare queste sfide nel lavoro futuro.

Come con DALL-E, più che allo stupore per la creatività, quello che mi sembra importante guardare è il messaggio che Imagen comunica: in un mondo invaso dai dati il potere è comprenderne il significato senza perdersi. Imagen è una macchina di significato e in un mondo sempre più diviso e in conflitto temo che questo sia l’ennesimo strumento in grado di diventare una potentissima arma per quella che oggi, come ci mostra l’ucraina, è la vera frontiera della guerra: la propaganda e l’aggressione psicologica.

Paolo Benanti

Imagen: la risposta di Google a DALL-E di OpenAI

Post recenti

Comments