La creazione di modelli ridotti per l'addestramento dell'intelligenza artificiale potrebbe potenziare funzioni quali la correzione automatica e gli assistenti vocali che attualmente arricchiscono il nostro telefono. Alcuni ricercatori hanno ridotto con successo un gigante modello di per renderlo adatto ad essere utilizzato in applicazioni commerciali. Diamo uno sguardo.
Giganti? Nell'ottobre dello scorso anno Google è salita agli albori della cronaca per aver rilasciato un modello di comprensione del linguaggio chiamato BERT. BERT ha superato un benchmark di comprensione della lettura che risultava imbattuto da lunga data nell'ambito della comprensione del linguaggio naturale. La versione più grande del modello si basava su 340 milioni di parametri di dati e un solo addestramento del sistema costava, in elettricità, l'equivalente necessario per alimentare una famiglia americana per 50 giorni.
Quattro mesi dopo, OpenAI ha superato rapidamente le prestazioni di BERT con il suo modello GPT-2. Il GPT-2 ha dimostrato un talento impressionante - e ha destato notevoli preoccupazioni - per la sua capacità di costruzione di prosa convincente. GPT-2 funziona però dasandosi su 1,5 miliardi di parametri. Dopo poco anche GPT-2 è stato battuto: MegatronLM, l'ultimo e il più grande modello di Nvidia, che si fonda su 8,3 miliardi di parametri ha mostrato risultati ancora più portentosi. Potremmo pensare che le cose ci stiano sfuggendo di mano.
"Bots" on the ground I ricercatori sono sempre più preoccupati delle conseguenze di questa tendenza. A giugno, come abbiamo riportato in un post, un gruppo dell'Università del Massachusetts, ad Amherst, ha mostrato il bilancio climatico dello sviluppo e della formazione di modelli su così vasta scala. L'addestramento del BERT, secondo i loro calcoli, emetteva quasi la stessa quantità di carbonio di un volo di andata e ritorno tra New York e San Francisco; GPT-2 e MegatronLM, per estrapolazione, probabilmente emetterebbero molto di più.
Questa tendenza energivora potrebbe avere anche conseguenze "politiche". Se per sviluppare modelli di AI servono ingenti risorse, università e altri soggetti potrebbero restare esclusi da questo campo. Il risultato sarebbe quello di accelerare la concentrazione della ricerca nel campo delle AI nelle mani di alcuni giganti della tecnologia. I laboratori con risorse insufficienti in ambito accademico o in paesi con meno risorse semplicemente non hanno i mezzi per utilizzare o sviluppare tali modelli computazionalmente costosi.
Tesoro, mi si è ristretta l'AI (semi cit.) Per fare fronte a queste tendenze, molti ricercatori si sono concentrati sulla possibilità di ridurre le dimensioni dei modelli esistenti senza perdere le loro capacità. Ora due nuovi studi, rilasciati a un giorno di distanza l'uno dall'altro, mostrano la possibilità di produrre con successo una versione più piccola di BERT. Si passa da 340 a 100 milioni di parametri.
Il primo paper, che proviene dai ricercatori di Huawei, produce un modello chiamato TinyBERT che è meno di un settimo delle dimensioni dell'originale e quasi 10 volte più veloce. Dal punto di vista prestazionale ha risultati comparabili a BERT anche nella comprensione della lingua. Il secondo modello, sviluppato dai ricercatori di Google, produce un modello più piccolo di un fattore superiore a 60, ma la sua comprensione del linguaggio è leggermente peggiore della versione Huawei.
Come ci sono riusciti? Entrambi i paper utilizzano varianti di una tecnica di compressione comune nota come "distillazione della conoscenza". Questa tecnica implica l'utilizzo del modello ampio che si desidera ridurre - chiamato l'"insegnante" - per formare un modello molto più piccolo - chiamato lo "studente" - dalla sua immagine. Per ottenere il risultato si procede ricorsivamente inserendo gli stessi input in entrambi i modelli e poi si modifica lo studente fino a quando i suoi output corrispondono a quelli dell'insegnante.
Fuori dai laboratori Quali sono gli scenari per questo tipo di modelli? Naturalmente oltre a migliorare l'accesso ad Ai d'avanguardia, i modelli piccoli aiuteranno a portare i più recenti progressi dell'AI nei dispositivi di consumo.
Oggi uno smartphone possiede molta più potenza di calcolo del computer che ha permesso all'uomo di sbarcare sulla Luna negli anni 60. Tuttavia questa potenza non è ancora sufficiente per i grandi modelli come BERT e le dimensioni ridotte delle batterie non consentono l'esecuzione locale del sistema. Oggi è richiesto allo smartphone di inviare i dati del parlato o dell'applicazione a un server che elabora la richiesta e fornisce i risultati al device.
L'implementazione di questi modelli può evitare la necessità di inviare i dati dei consumatori al cloud, migliorando sia la velocità che la privacy. O, senza pensare solo a scenari rosei, può dar vita a tutta una serie di strumenti tattici che sono destinati all'uso sul campo in condizioni in cui la connessioni dati non è possibile, non è garantita o non è sicura. Per i modelli destinati a interpretare il linguaggio naturale, poi, avere capacità di predizione del testo e la generazione di linguaggio parlato più potenti potrebbero migliorare una pletora di applicazioni che vanno dal completamento automatico di frasi mentre si scrive sul telefono fino alle funzioni più smart di assistenti vocali come Alexa e Google Assistant.
Non è certo la preoccupazione ecologica o di impronta di carbonio a muovere queste ricerche. Tuttavia la divergente forbice tra risorse necessarie e implementazioni tecniche sta ugualmente producendo qualcosa che alla lunga potrebbe anche ottimizzare i consumi e ridurre l'impatto energetico.
Insomma, se non per etica almeno per convenienza.