La creazione di un singolo modello di intelligenza artificiale può emettere tanta anidride carbonica quanto cinque automobili nell'intera loro vita.
Il mondo dell'intelligenza artificiale viene spesso paragonata all'industria petrolifera: una volta estratti e raffinati, i dati, come il petrolio, possono essere un bene molto redditizio. Ora sembra che la metafora possa estendersi ulteriormente. Come la sua controparte dei combustibili fossili, il processo di deep learning ha un impatto ambientale straordinario.
In un nuovo studio, i ricercatori dell'Università del Massachusetts hanno eseguito una valutazione del ciclo di vita per l'addestramento di diversi modelli comunenmente adottati per le AI di grandi dimensioni. I ricercatori hanno calcolato che il processo può emettere più di 284.000 chilogrammi di anidride carbonica - quasi cinque volte le emissioni della vita media di un'auto nel mercato americano - includendo nel calcolo la produzione della stessa auto -. È una sconcertante quantificazione di qualcosa che i ricercatori nel mondo delle AI sospettavano da molto tempo. "Mentre probabilmente molti di noi hanno pensato a questo in un livello astratto e vago, le cifre mostrano davvero l'entità del problema", afferma Carlos Gómez-Rodríguez, un informatico dell'Università di A Coruña in Spagna, che non è stato coinvolto nella ricerca. "Né io né altri ricercatori ha mai parlato di AI pensando che l'impatto ambientale fosse sostanziale".
L'impronta di CO2 dell'elaborazione del linguaggio naturale Il documento esamina in particolare il processo di addestramento del modello per l'elaborazione del linguaggio naturale (NLP), un sottocampo dell'AI che si concentra sul rendere le macchine in grado di gestire il linguaggio umano. Negli ultimi due anni, la comunità della PNL ha raggiunto diversi traguardi importanti per quanto riguarda la traduzione automatica, il completamento delle frasi e altri compiti standard di benchmarking. Il famigerato modello GPT-2 di OpenAI, come un esempio, eccelleva nello scrivere articoli di fake news molto convincenti.
Ma tali progressi hanno richiesto la formazione di modelli sempre più grandi su ampie serie di dati ottenuti da frasi prese da Internet. L'approccio è computazionalmente costoso e ad alta intensità energetica.
I ricercatori hanno esaminato i quattro modelli che hanno prodotto i più grandi miglioramenti nelle prestazioni: Transformer, ELMo, BERT e GPT-2. Si sono allenati su una singola GPU per un massimo di un giorno per misurare la potenza assorbita. Hanno quindi utilizzato il numero di ore di addestramento elencate nei documenti originali del modello per calcolare l'energia totale consumata durante l'intero processo di formazione. Questo numero è stato convertito in chili equivalenti di anidride carbonica in base al modo con cui si produce mediamente l'energia negli Stati Uniti, che corrisponde strettamente al mix energetico utilizzato da AWS di Amazon, il più grande fornitore di servizi cloud.
I ricercatori hanno scoperto che i costi computazionali e ambientali dell'addestramento sono cresciuti proporzionalmente alla dimensione del modello e poi sono esplosi quando sono stati utilizzati ulteriori passaggi di messa a punto per aumentare la precisione finale del modello. In particolare, hanno scoperto che un processo di sintonizzazione noto come ricerca dell'architettura neurale, che cerca di ottimizzare un modello modificando in modo incrementale la progettazione di una rete neuronale attraverso prove ed errori esaurienti, ha avuto costi associati straordinariamente elevati per un piccolo beneficio prestazionale. Senza di esso, il modello più costoso, il BERT, aveva un'impronta di carbonio di circa 640 chili equivalenti di anidride carbonica, una cifra vicina a un volo nazionale in US di andata e ritorno per una persona.
Inoltre, i ricercatori annotano che le cifre dovrebbero essere considerate solo come consumi di base. "La formazione di un singolo modello è la quantità minima di lavoro che si può fare", afferma Emma Strubell, una dottoranda presso l'Università del Massachusetts, e autrice principale del documento. In pratica, è molto più probabile che gli sviluppatori di AI sviluppino un nuovo modello da zero o adattino un modello esistente a un nuovo set di dati, ognuno dei quali può richiedere molti altri cicli di allenamento e messa a punto.
Per comprendere meglio come potrebbe apparire la pipeline di sviluppo completo in termini di emissioni di anidride carbonica, Strubell e i suoi colleghi hanno utilizzato un modello che avevano prodotto in un precedente articolo come caso di studio. Hanno scoperto che il processo di costruzione e test di un modello finale richiedeva l'addestramento di 4.789 modelli per un periodo di sei mesi. Convertito in equivalente CO2, ha emesso più di 35.000 chili di CO2 ed è probabilmente rappresentativo del consumo tipico in questo campo.
Il significato di questi dati è impressionante, specialmente se si considerano le tendenze attuali nella ricerca sull'intelligenza artificiale. "In generale, gran parte delle ultime ricerche sull'AI trascura l'efficienza, in quanto reti neurali di grandi dimensioni si sono rivelate utili per una varietà di compiti, e le aziende e le istituzioni che hanno accesso abbondante alle risorse computazionali possono sfruttare questo per ottenere un vantaggio competitivo ", Dice Gómez-Rodríguez. "Questo tipo di analisi doveva essere fatto per aumentare la consapevolezza delle risorse che vengono spese [...] ed è destinato a suscitare un dibattito".
La privatizzazione della ricerca sull'intelligenza artificiale I risultati sottolineano anche un altro problema crescente nell'AI: la semplice intensità delle risorse ora necessarie per produrre risultati degni di pubblicazione ha reso sempre più difficile per le persone che lavorano nel mondo accademico continuare a contribuire alla ricerca.
"Questa tendenza alla formazione di enormi modelli su tonnellate di dati non è fattibile per gli studenti universitari, specialmente perché non abbiamo le risorse computazionali", dice Strubell. "Quindi c'è un problema di equità di accesso tra i ricercatori del mondo accademico e i ricercatori dell'industria".
Strubell e i suoi coautori sperano che i loro colleghi presteranno attenzione ai risultati del lavoro e contribuiranno a livellare le condizioni investendo nello sviluppo di hardware e algoritmi più efficienti.
Il rischio è che le risorse necessarie producano due direzioni di ricerca. Una accademica che mantiene alcuni standard ma non ha risorse per produrre risultati, l'altra, affidata ai privati, che ha mezzi ma non segue standard o modalità che caratterizzano normalmente la ricerca accademica.
Ecologia e sviluppo tecnologico
Bisogna auspicare, in modo particolare, una “governance delle intelligenze artificiali”. In questo momento sono due i grandi modelli di sviluppo di questi sistemi: quello americano e quello cinese: è importante “tornare a quella che è la radice del nostro modo di essere Europa ed essere Occidente, cioè la piazza: la piazza attorno a cui nasceva la polis, il luogo dove le diverse competenze si confrontano cercando di codificare quello che sta accadendo e dandosi dei regolamenti per indirizzarlo verso quello che capiscono essere il bene comune.
La governance delle intelligenze artificiali significa creare questi contesti in cui lo sviluppo, come dicono i documenti del magistero papale, possa diventare reale progresso, dove si possa fare attenzione, per parafrasare Papa Francesco, a quella ecologia integrale, a quella complessità sociale che riguarda le relazioni degli uomini, soprattutto non schiacciando i deboli e gli ultimi.