Molti ricercatori conoscono arXiv: un archivio online che contiene prepubblicazioni (pre-print) di articoli scientifici in diverse discipline, tra cui fisica, matematica, informatica, statistica, finanza quantitativa e biologia. È accessibile gratuitamente via Internet e rappresenta una risorsa fondamentale per la comunità scientifica. In molti settori della matematica e della fisica, la maggior parte delle pubblicazioni scientifiche vengono inserite in questo archivio. Gli articoli presenti su arXiv sono bozze definitive che hanno subito una revisione e approvazione, ma non ancora una revisione paritaria. Il 18 luglio scorso è comparso un articolo su arXiv che ha iniziato a far discutere la comunità dei ricercatori nel campo delle AI. Vediamo di cosa si tratta.
GPT-3.5 e GPT-4 sono i due servizi di modelli linguistici di grandi dimensioni (LLM) più utilizzati. Tuttavia, non è chiaro quando e come questi modelli vengano aggiornati nel tempo. Nell'articolo si valutano le versioni di marzo 2023 e giugno 2023 di GPT-3.5 e GPT-4 su quattro compiti diversi: 1) risoluzione di problemi matematici, 2) risposta a domande sensibili/pericolose, 3) generazione di codice e 4) ragionamento visivo. I ricercatori hanno scoperto che le prestazioni e il comportamento di GPT-3.5 e GPT-4 possono variare notevolmente nel tempo. Nel complesso, i risultati mostrano che il comportamento dello stesso servizio LLM può cambiare sostanzialmente in un lasso di tempo relativamente breve, evidenziando la necessità di un monitoraggio continuo della qualità del LLM. Vediamo meglio qualche dettaglio.
Questo documento è una ricerca che esplora le prestazioni dei modelli linguistici di grandi dimensioni (LLM) nel tempo. In particolare, si concentra su due modelli, GPT-3.5 e GPT-4, e ne valuta le prestazioni su vari compiti. Il documento evidenzia la necessità di un monitoraggio continuo della qualità degli LLM, poiché questi modelli possono presentare cambiamenti significativi nel comportamento nel corso del tempo.
L'articolo inizia discutendo la letteratura esistente sui LLM e le loro prestazioni su compiti linguistici tradizionali come la comprensione della lettura, la traduzione e il riassunto. Si osserva che i LLM hanno ottenuto prestazioni ragionevoli in questi compiti e hanno dimostrato di avere successo in ambiti professionali come la medicina e la legge. Tuttavia, il documento sottolinea che i lavori esistenti non monitorano sistematicamente le derive longitudinali dei servizi LLM ampiamente utilizzati, come GPT-4 e GPT-3.5, nel corso del tempo.
L'articolo presenta quindi una valutazione di GPT-3.5 e GPT-4 su vari compiti, tra cui la risposta a domande, il completamento di testi e la risoluzione di puzzle. I risultati mostrano che entrambi i modelli presentano cambiamenti significativi nel comportamento nel corso del tempo, con GPT-4 che mostra una maggiore stabilità rispetto a GPT-3.5. Il documento osserva che questi cambiamenti nel comportamento sono dovuti al fatto che il GPT-3.5 non è un modello di riferimento. Il documento osserva che questi cambiamenti nel comportamento possono avere implicazioni significative per l'affidabilità e le prestazioni dei servizi LLM.
Il documento esamina anche i fattori che contribuiscono a modificare il comportamento dei LLM nel tempo. Questi fattori includono cambiamenti nei dati di addestramento, cambiamenti nell'architettura del modello e cambiamenti nelle metriche di valutazione. Il documento osserva che questi fattori possono interagire in modo complesso, rendendo difficile prevedere il comportamento dei LLM nel tempo.
Per rispondere alla necessità di un monitoraggio continuo della qualità dei LLM, il documento propone un quadro di riferimento per la valutazione delle prestazioni dei LLM nel tempo. Il quadro comprende una serie di compiti di valutazione progettati per catturare diversi aspetti del comportamento dei LLM, nonché una serie di metriche per misurare le prestazioni dei LLM su questi compiti. Il documento sottolinea che questo framework può essere utilizzato per monitorare le prestazioni dei servizi LLM in natura e per rilevare i cambiamenti di comportamento nel tempo.
L'articolo presenta poi un caso di studio di ChatGPT, un popolare chatbot basato su LLM. Lo studio valuta le prestazioni di GPT-3.5 e GPT-4 su una serie di domande sensibili e mostra che entrambi i modelli presentano cambiamenti significativi nel comportamento nel tempo. Il documento osserva che questi cambiamenti di comportamento possono avere implicazioni significative per l'affidabilità di ChatGPT.
Lo studio ha valutato le prestazioni di GPT-3.5 e GPT-4 su quattro compiti: risoluzione di problemi matematici, risposta a domande sensibili/pericolose, generazione di codice e ragionamento visivo.
Per il compito di risoluzione dei problemi matematici, i modelli sono stati valutati in base alla loro capacità di determinare se un dato numero intero è primo. Il dataset conteneva 500 domande e i modelli sono stati valutati utilizzando il Chain-of-Thought, un approccio standard per i compiti di ragionamento. I risultati hanno mostrato che entrambi i modelli hanno mostrato cambiamenti significativi nel comportamento nel tempo, con GPT-4 che ha mostrato maggiore stabilità rispetto a GPT-3.5.
Per il compito "domande sensibili/pericolose", i modelli sono stati valutati in base alla loro capacità di fornire risposte appropriate a domande relative a suicidio, autolesionismo e violenza. Lo studio ha utilizzato un set di 100 domande e i modelli sono stati valutati in base alla loro capacità di fornire risposte appropriate evitando contenuti dannosi o scatenanti. I risultati hanno mostrato che entrambi i modelli hanno mostrato cambiamenti significativi nel comportamento nel tempo, con GPT-4 che ha mostrato una maggiore stabilità rispetto a GPT-3.5.
Per il compito di generazione del codice, i modelli sono stati valutati in base alla loro capacità di generare frammenti di codice per un determinato compito. Lo studio ha utilizzato un set di dati di 100 compiti di programmazione e i modelli sono stati valutati in base alla qualità e alla correttezza del codice generato. I risultati hanno mostrato che entrambi i modelli hanno mostrato cambiamenti significativi nel comportamento nel corso del tempo, con GPT-4 che ha mostrato una maggiore stabilità rispetto a GPT-3.5.
Per il compito di ragionamento visivo, i modelli sono stati valutati in base alla loro capacità di rispondere a domande basate su stimoli visivi. Lo studio ha utilizzato un set di 100 domande e i modelli sono stati valutati in base alla loro capacità di rispondere correttamente alle domande. I risultati hanno mostrato che entrambi i modelli hanno mostrato cambiamenti significativi nel comportamento nel tempo, con il GPT-4 che ha mostrato una maggiore stabilità rispetto al GPT-3.5.
Nel complesso, lo studio ha dimostrato che sia il GPT-3.5 sia il GPT-4 presentano cambiamenti significativi nel comportamento nel tempo su una serie di compiti. Tuttavia, il GPT-4 ha mostrato una maggiore stabilità rispetto al GPT-3.5, suggerendo che potrebbe essere una scelta più affidabile per le applicazioni basate su LLM.
Il documento analizza diversi fattori che contribuiscono al cambiamento del comportamento dei servizi LLM come ChatGPT nel corso del tempo. Questi fattori includono:
1. Cambiamenti nei dati di addestramento: Gli LLM sono addestrati su grandi insiemi di testo e i cambiamenti nei dati di addestramento possono portare a cambiamenti nel comportamento del modello. Ad esempio, se i dati di addestramento contengono un maggior numero di esempi di un particolare tipo di uso del linguaggio, il modello può diventare migliore in quel compito ma peggiore in altri.
2. Cambiamenti nell'architettura del modello: Gli LLM sono modelli complessi con molti parametri e i cambiamenti nell'architettura del modello possono portare a cambiamenti nel comportamento del modello. Ad esempio, se il modello viene modificato per includere strati aggiuntivi o funzioni di attivazione diverse, il comportamento del modello può cambiare.
3. Cambiamenti nelle metriche di valutazione: I LLM sono tipicamente valutati utilizzando metriche come l'accuratezza o la perplessità, e le modifiche alle metriche di valutazione possono portare a cambiamenti nel comportamento del modello. Ad esempio, se la metrica di valutazione viene modificata per dare priorità a un particolare tipo di prestazione, il modello può modificare il proprio comportamento per ottimizzare tale metrica.
4. Cambiamenti nella distribuzione degli input: Gli LLM sono spesso utilizzati in applicazioni reali in cui la distribuzione degli input può cambiare nel tempo. Ad esempio, se un chatbot viene utilizzato per rispondere alle domande del servizio clienti, i tipi di domande poste possono cambiare nel tempo, portando a cambiamenti nel comportamento del modello.
5. Cambiamenti nel comportamento dell'utente: Gli LLM sono spesso utilizzati in applicazioni interattive in cui il comportamento dell'utente può influenzare il comportamento del modello. Ad esempio, se un chatbot viene utilizzato per fornire raccomandazioni agli utenti, i cambiamenti nelle preferenze o nel comportamento dell'utente possono portare a cambiamenti nel comportamento del modello.
Questi fattori possono interagire in modo complesso, rendendo difficile prevedere il comportamento dei LLM nel tempo. Il documento evidenzia la necessità di un monitoraggio continuo della qualità dei LLM per rilevare i cambiamenti di comportamento e garantire l'affidabilità e le prestazioni delle applicazioni basate sui LLM.
Il monitoraggio continuo della qualità del LLM può contribuire a migliorare le prestazioni e l'affidabilità di questi servizi in diversi modi:
1. Individuazione precoce della deriva delle prestazioni: Il monitoraggio continuo può aiutare a rilevare i cambiamenti nel comportamento degli LLM nel corso del tempo, consentendo agli sviluppatori di identificare e affrontare precocemente la deriva delle prestazioni. Questo può aiutare a prevenire problemi come risposte errate o inappropriate, che possono avere conseguenze significative in applicazioni sensibili.
2. Migliore comprensione del comportamento degli LLM: Il monitoraggio continuo può fornire agli sviluppatori una migliore comprensione del comportamento degli LLM nel tempo e in contesti diversi. Ciò può aiutare gli sviluppatori a identificare modelli e tendenze nel comportamento degli LLM e a sviluppare strategie per migliorare le prestazioni e l'affidabilità.
3. Miglioramento della selezione dei modelli: Il monitoraggio continuo può aiutare gli sviluppatori a selezionare l'LLM più appropriato per una determinata applicazione. Monitorando le prestazioni di diversi LLM nel tempo, gli sviluppatori possono identificare i modelli più stabili e affidabili e scegliere il modello migliore per la loro applicazione.
4. Miglioramento della formazione dei modelli: Il monitoraggio continuo può aiutare gli sviluppatori a migliorare l'addestramento degli LLM, identificando le aree in cui il modello ha prestazioni insufficienti o presenta un comportamento inaspettato. Questo può aiutare gli sviluppatori a perfezionare i dati di addestramento o a regolare l'architettura del modello per migliorare le prestazioni.
In generale, il monitoraggio continuo della qualità degli LLM è essenziale per garantire l'affidabilità e le prestazioni delle applicazioni basate sugli LLM. Monitorando il comportamento dell'LLM nel tempo e in contesti diversi, gli sviluppatori possono identificare e affrontare le derive delle prestazioni, migliorare la selezione e l'addestramento dei modelli e sviluppare strategie per migliorare le prestazioni e l'affidabilità delle applicazioni basate sull'LLM.
Di fatto non abbiamo ancora capito il problema dietro a queste metriche così cangianti, Però eticamente dobbiamo ricordarci alcuni elementi importanti. Di fatto affidarsi a un modello black-box ha un costo elevato. Per decenni ci siamo affidati ad API closed-source, ma lo abbiamo fatto aspettandoci uno standard nelle prestazioni e confidando nel fatto che il team di sviluppo non apportasse modifiche dirompenti. Il caso mostrato da questo studio sembra essere l'opposto. Dobbiamo chiederci cosa significa questo per un uso industriale dell'applicazione e per una AI che voglia essere veramente algoretica.
Articolo molto ficcante sui problemi che possono derivare dalle oscillazioni del comportamento di un LLM e di una rete neurale in generale. È esattamente ciò che succede a noi, a me, quando "facciamo spazio" nella nostra conoscenza per apprendere nuovi comportamenti e creiamo un "lack of sense" generale che tenderà con l'uso a riorganizzarsi o che potrà portare a momentanee perdite di performance. Succede molto marcatamente la stessa oscillazione "in peggio" momentaneo anche quando ad esempio apprendiamo dapprima un nuovo concetto etico, religioso o filosofico o tutt'e tre le caratteristiche contemporaneamente e poi lentissimamente lo portiamo a normalizzazione ....Credo personalmente che la "similitudine" a debolezze degli schemi di pensiero e apprendimento animale, e nello specifico umano, possa dare la corretta…