Oggi Meta ha annunciato la creazione di CICERO, il primo agente di intelligenza artificiale (AI) a raggiungere prestazioni di livello umano nel popolare gioco di strategia Diplomacy. Questa creazione può segnare l'inizio di una nuova era per le AI in grado di collaborare con le persone nel gioco utilizzando il ragionamento strategico e l'elaborazione del linguaggio naturale, e l'apprendimento di tecnologie come questa potrebbe un giorno portare ad assistenti intelligenti in grado di collaborare con le persone. Vediamo in dettaglio l'annuncio di Meta per capire come funziona CICERO.
I giochi sono stati a lungo un terreno di prova per i nuovi progressi delle IA: dalla vittoria di Deep Blue sul grande maestro di scacchi Garry Kasparov, alla padronanza di AlphaGo nel Go, fino a Pluribus che ha superato in bluff i migliori umani nel poker. Ma gli agenti veramente utili e versatili dovranno andare oltre il semplice spostamento dei pezzi su una scacchiera. La domanda da cui è partita Meta è se fosse possibile costruire agenti più efficaci e flessibili in grado di usare il linguaggio per negoziare, persuadere e lavorare con le persone per raggiungere obiettivi strategici simili a quelli degli esseri umani?
L'AI in questione si chiama CICERO ed è in grado di padroneggiare queste capacità. CICERO è la prima IA a raggiungere prestazioni di livello umano nel popolare gioco di strategia Diplomacy.
Diplomacy è un gioco da tavolo strategico americano creato da Allan B. Calhamer nel 1954 e commercializzato negli Stati Uniti nel 1959. Le sue principali differenze rispetto alla maggior parte dei wargame da tavolo sono le fasi di negoziazione (i giocatori passano gran parte del tempo a stringere e tradire alleanze con altri giocatori e a formare strategie vantaggiose) e l'assenza di dadi e altri elementi di gioco che producono effetti casuali. Ambientato in Europa negli anni che precedono la Grande Guerra, Diplomacy è giocato da due a sette giocatori, ognuno dei quali controlla le forze armate di una grande potenza europea (o, con meno giocatori, di più potenze). Ogni giocatore punta a muovere le proprie poche unità iniziali e a sconfiggere quelle degli altri per conquistare il possesso della maggior parte delle città e delle province strategiche contrassegnate come "centri di rifornimento" sulla mappa; questi centri di rifornimento permettono ai giocatori che li controllano di produrre più unità. Dopo ogni round di negoziazione, ogni giocatore può impartire ordini di attacco e di supporto, che vengono eseguiti durante la fase di movimento. Un giocatore prende il controllo di una provincia quando il numero di province a cui è stato dato l'ordine di sostenere la provincia attaccante supera il numero di province a cui è stato dato l'ordine di sostenere la provincia difendente.
Diplomacy è stato il primo gioco pubblicato in commercio a essere giocato per posta (PBM); solo gli scacchi, che sono di dominio pubblico, sono stati giocati per posta prima. Diplomacy è stato anche il primo gioco pubblicato in commercio a generare una scena hobbistica attiva con fanzine amatoriali; solo i fandom di fantascienza, fantasy e fumetti hanno visto fanzine prima di lui. Dagli anni Settanta si tengono tornei competitivi di Diplomacy faccia a faccia. Il gioco di Diplomacy via e-mail (PBEM) è diffuso dalla fine degli anni '80. Oggi si gioca anche su Internet, con l'arbitraggio di un computer o di un gamemaster umano.
Avalon Hill pubblicizza Diplomacy come il gioco preferito di John F. Kennedy e Henry Kissinger. Kissinger lo ha descritto come il suo preferito in un'intervista pubblicata su una rivista di giochi. Il giornalista americano Walter Cronkite è noto per essere stato un appassionato del gioco. Michael Portillo, giornalista, emittente ed ex membro del Parlamento e ministro del governo britannico, è noto per aver giocato al gioco mentre studiava alla Harrow County School for Boys. Diplomacy è stato definito come "Il gioco che rovina le amicizie e dà forma alle carriere politiche".
CICERO ha dimostrato le sue capacità giocando su webDiplomacy.net, una versione online del gioco, dove ha ottenuto un punteggio più che doppio rispetto alla media dei giocatori umani e si è classificato nel primo 10% dei partecipanti che hanno giocato più di una partita.
La diplomazia è stata vista per decenni come una grande sfida quasi impossibile per una AI, perché richiede ai giocatori di padroneggiare l'arte di comprendere le motivazioni e le prospettive degli altri, di fare piani complessi e di adattare le strategie, e poi di usare il linguaggio naturale per raggiungere accordi con altre persone, convincerle a formare partnership e alleanze, e altro ancora. CICERO è così efficace nell'usare il linguaggio naturale per negoziare con le persone in Diplomazia che spesso queste ultime preferiscono lavorare con CICERO rispetto ad altri partecipanti umani.
A differenza di giochi come gli scacchi e il go, Diplomacy è un gioco di persone piuttosto che di pezzi. Se un agente non è in grado di riconoscere che qualcuno sta probabilmente bluffando o che un altro giocatore vedrebbe una certa mossa come aggressiva, perderà rapidamente la partita. Allo stesso modo, se non parla come una persona vera - mostrando empatia, costruendo relazioni e parlando con cognizione di causa del gioco - non troverà altri giocatori disposti a lavorare con lui.
La chiave del successo di CICERO, secondo Meta, è stato lo sviluppo di nuove tecniche all'intersezione di due aree completamente diverse della ricerca sulle AI: il ragionamento strategico, utilizzato in agenti come AlphaGo e Pluribus, e l'elaborazione del linguaggio naturale, utilizzata in modelli come GPT-3, BlenderBot 3, LaMDA e OPT-175B. CICERO è in grado di dedurre, ad esempio, che più avanti nel gioco avrà bisogno del sostegno di un giocatore in particolare, e quindi di elaborare una strategia per conquistare il favore di quella persona - e persino di riconoscere i rischi e le opportunità che quel giocatore vede dal suo particolare punto di vista.
Meta ha reso disponibile il codice e pubblicato un documento per aiutare la comunità di ricercatori nel campo dell'intelligenza artificiale a utilizzare CICERO per stimolare ulteriori progressi nella cooperazione tra uomo e IA.
Sotto il cofano: come è costruito CICERO
Il cuore di CICERO è un modello di dialogo controllabile per Diplomacy, abbinato a un motore di ragionamento strategico. A ogni punto del gioco, CICERO esamina il tabellone e la cronologia delle conversazioni e modella il comportamento degli altri giocatori. Utilizza quindi questo piano per controllare un modello linguistico in grado di generare un dialogo libero, informando gli altri giocatori dei propri piani e proponendo loro azioni ragionevoli che si coordinano bene con loro.
Dialogo controllabile
Per costruire un modello di dialogo controllabile, i ricercatori di Meta hanno iniziato con un modello linguistico simile a BART da 2,7 miliardi di parametri, pre-addestrato su testi provenienti da Internet e messo a punto su oltre 40.000 partite umane su webDiplomacy.net. Meta ha sviluppato tecniche per annotare automaticamente i messaggi nei dati di addestramento con le corrispondenti mosse pianificate nel gioco, in modo che al momento dell'inferenza si possano controllare la generazione di dialoghi per discutere le azioni specifiche desiderate dall'agente e dai suoi interlocutori. Ad esempio, se CICERO gioca nei panni della Francia, il condizionamento del modello di dialogo su un piano che prevede l'appoggio dell'Inghilterra alla Francia in Borgogna potrebbe produrre un messaggio all'Inghilterra del tipo: "Ciao Inghilterra! Sei disposto a sostenermi in Borgogna questo turno?". Il controllo della generazione in questo modo permette a CICERO di fondare le sue conversazioni su un insieme di piani che sviluppa e rivede nel tempo per negoziare meglio. Questo aiuta l'agente a coordinarsi con gli altri giocatori e a persuaderli in modo più efficace.
Fase 1 Utilizzando lo stato del tabellone e il dialogo in corso, CICERO fa una previsione iniziale di ciò che tutti faranno.
Fase 2 CICERO affina iterativamente questa previsione utilizzando la pianificazione e poi usa queste previsioni per formare un intento per se stesso e per il suo partner.
Fase 3 Genera diversi messaggi candidati in base allo stato del forum, al dialogo e ai suoi intenti.
Fase 4 Filtra i messaggi candidati per ridurre le assurdità, massimizzare il valore e garantire la coerenza con i nostri intenti.
Meta ha migliorato ulteriormente la qualità del dialogo utilizzando diversi meccanismi di filtraggio - come i classificatori addestrati a distinguere tra testo umano e testo generato dal modello - che assicurano che il nostro dialogo sia sensato, coerente con lo stato attuale del gioco e con i messaggi precedenti e strategicamente valido.
Strategia e pianificazione consapevoli del dialogo
In passato, gli agenti sovrumani nei giochi avversari come gli scacchi, il Go e il poker sono stati creati attraverso l'apprendimento per rinforzo (RL) del gioco autonomo: gli agenti imparano le politiche ottimali giocando milioni di partite contro altre copie di se stessi. Tuttavia, i giochi che prevedono la cooperazione richiedono la modellazione di ciò che gli esseri umani faranno nella vita reale, piuttosto che la modellazione di ciò che dovrebbero fare se fossero copie perfette del bot. In particolare, Meta ha cercato di ottenere che CICERO faccia piani coerenti con il dialogo avuto con gli altri giocatori.
L'approccio classico alla modellazione umana è l'apprendimento supervisionato, in cui l'agente viene addestrato con dati etichettati, come un database di azioni di giocatori umani in partite passate. Tuttavia, affidarsi esclusivamente all'apprendimento supervisionato per scegliere le azioni in base al dialogo passato porta a un agente relativamente debole e altamente sfruttabile. Ad esempio, un giocatore potrebbe dire all'agente: "Sono contento che abbiamo concordato che sposterai la tua unità da Parigi!". Poiché messaggi simili appaiono nei dati di addestramento solo quando è stato raggiunto un accordo, l'agente potrebbe effettivamente spostare la sua unità da Parigi, anche se farlo è un chiaro errore strategico.
Per risolvere questo problema, CICERO esegue un algoritmo di pianificazione iterativo che bilancia la coerenza del dialogo con la razionalità. L'agente prevede innanzitutto la politica di ognuno per il turno corrente, in base al dialogo che ha condiviso con gli altri giocatori, e prevede anche quale sarà la politica degli altri giocatori. Poi esegue un algoritmo di pianificazione sviluppato dai ricercatori di Meta, chiamato piKL, che migliora iterativamente queste previsioni cercando di scegliere nuove politiche che abbiano un valore atteso più alto in base alle politiche previste dagli altri giocatori, cercando anche di mantenere le nuove previsioni vicine a quelle originali. Nei laboratori di Meta i ricercatori hanno scoperto che piKL modella meglio il gioco umano e porta a politiche migliori per l'agente rispetto al solo apprendimento supervisionato.
Generare un dialogo naturale e mirato
In Diplomacy, il modo in cui un giocatore parla con gli altri può essere ancora più importante di come muove i suoi pezzi. CICERO è in grado di parlare in modo chiaro e persuasivo quando si tratta di strategie con altri giocatori. Ad esempio, in una partita dimostrativa, CICERO ha chiesto a un giocatore un sostegno immediato su una parte del tabellone, mentre ha fatto pressione su un altro affinché prendesse in considerazione un'alleanza più avanti nel gioco.
In questi scambi, CICERO cerca di eseguire la sua strategia proponendo mosse a tre giocatori diversi. Nel secondo dialogo, l'agente è in grado di spiegare all'altro giocatore perché dovrebbe cooperare e in che modo sarà reciprocamente vantaggioso. Nel terzo, CICERO sollecita informazioni e pone le basi per le mosse future.
Dove c'è ancora spazio per i miglioramenti
È importante riconoscere che CICERO a volte genera anche un dialogo incoerente che può compromettere i suoi obiettivi. Nell'esempio seguente, in cui CICERO giocava come Austria, l'agente contraddice il suo primo messaggio in cui chiede all'Italia di spostarsi a Venezia. La nostra suite di filtri mira a rilevare questo tipo di errori, ma non è perfetta.
La diplomazia come sandbox per il progresso dell'interazione uomo-AI
L'emergere di sistemi di dialogo orientati agli obiettivi in un gioco che implica sia la cooperazione che la competizione solleva importanti sfide sociali e tecniche per allineare l'IA alle intenzioni e agli obiettivi umani. La diplomazia offre un ambiente particolarmente interessante per lo studio di questo aspetto, perché il gioco richiede di lottare con obiettivi contrastanti e di tradurre questi obiettivi complessi in linguaggio naturale. Per fare un semplice esempio, un giocatore potrebbe scegliere di scendere a compromessi su guadagni a breve termine per mantenere un alleato, con la possibilità che questo alleato lo aiuti a raggiungere una posizione ancora migliore nel turno successivo.
A Meta sono consapevoli che, sebbene abbiano fatto notevoli passi avanti in questo lavoro, sia la capacità di allineare in modo robusto i modelli linguistici con intenzioni specifiche, sia la sfida tecnica (e normativa) di decidere su tali intenzioni rimangono problemi aperti e importanti. Con l'open sourcing del codice di CICERO, i tecnici di Meta sperano che che i ricercatori di AI possano continuare a basarsi sul loro lavoro in modo responsabile. I ricercatori di Meta hanno fatto i primi passi per individuare e rimuovere i messaggi tossici in questo nuovo dominio, utilizzando il modello di dialogo per la classificazione a colpo zero. Leggendo le loro stesse parole si vede come ora i ricercatori si auguriano che Diplomacy possa servire come sandbox sicuro per far progredire la ricerca sull'interazione uomo-IA.
Direzioni future
Sebbene CICERO sia in grado di giocare solo a Diplomacy, la tecnologia alla base di questo risultato è rilevante per molte applicazioni del mondo reale. Il controllo della generazione del linguaggio naturale attraverso la pianificazione e la RL potrebbe, ad esempio, ridurre le barriere di comunicazione tra gli esseri umani e gli agenti dotati di intelligenza artificiale. Per esempio, gli assistenti AI di oggi eccellono in semplici compiti di risposta alle domande, come ad esempio informarvi sul tempo, ma cosa succederebbe se potessero mantenere una conversazione a lungo termine con l'obiettivo di insegnarvi una nuova abilità? In alternativa, immaginate un videogioco in cui i personaggi non giocanti (PNG) possano pianificare e conversare come fanno le persone, comprendendo le vostre motivazioni e adattando la conversazione di conseguenza, per aiutarvi nella vostra missione di assalto al castello.
Se a Meta sono, giustamente, entusiasti del potenziale dei futuri progressi in queste aree e di vedere come altri svilupperanno la ricerca, la potenza e i limiti di CICERO ci fanno guardare con la prudenza dell'algoretica a strumenti così efficaci ma anche così facilmente usabili non come strumenti ma come armi.
Comments