Dinesh Nirmal, il vice presidente dell'analytics development presso IBM ha recentemente pubblicato un post in cui cerca di descrivere quali devono essere le caratteristiche che deve possedere un sistema AI per essere non soltanto una proof of concept ma anche utile e utilizzabile nel mondo reale. Proviamo qui a riassumere il suo pensiero
Nell'esperienza di Nimal sono tanti i CTO frustrati dalle AI. Il CTO (in inglese: chief technology officer o chief technical officer) è un manager di primo livello e membro del direttivo di un'azienda la cui responsabilità principale è monitorare, valutare, selezionare e suggerire al consiglio direttivo e all'amministratore delegato le tecnologie che possono essere applicate ai prodotti o ai servizi che una azienda produce. In particolare il suo post comincia dal raccontare, come nella migliore tradizione dello storytelling aziendale che oggi domina il marketing, che poche settimane prima un CTO sconsolato gli avrebbe confessato di aver impiegato tre settimane per costruire un modello di apprendimento automatico. La reazione di Nimal era sorpresa in senso positivo: costruire un modello in sole tre settimane è grandioso. Anche il CTO depresso concordava. Allora perché la faccia lunga e triste? Perché 11 mesi dopo, il modello era ancora "in panchina", poggiato su uno scaffale e non utilizzabile.
Questo espediente narrativo, che ripetiamo ci fa intuire come il post del manager IBM sia in realtà una sorta di lancio di marketing per modelli di AI di IBM, mostra però una realtà. Esiste un grande divario tra i grandi prototipi di intelligenza artificiale di cui leggiamo risultati fantastici e l'intelligenza artificiale "in azione", ossia tra quanto realisticamente riusciamo oggi a rendere embedded nelle soluzioni aziendali e commerciali. La distanza tra supersistemi sperimentali e utilizzo comune sta cominciando a essere un tema comune perché il machine learning sta entrando in contatto con il mondo reale.
Perché?
In realtà, riconosce Dinesh Nirmal, ci sono molte ragioni, e sarebbe possibile esaminarne con attenzione alcune, ma, e qui inizia la parte interessante del post, la core question, il tema che soggiace a tutti gli altri temi, è il fatto che i dati non sono una entità immobile e non lo saranno mai.
I dati cambiano man mano che il mondo cambia. Costruire un modello di intelligenza artificiale o di apprendimento automatico significa costruire un modo di guardare al mondo più che un'efficiente analisi di un set preciso di dati. Ma mentre il mondo e i dati cambiano, i modelli devono adattarsi. Secondo Nirmal il CTO depresso, questa figura mitologica di quella che sembra profilarsi come nuovo approccio alle AI di IBM, si stava rendendo conto che la costruzione di un grande modello è solo il primo passo.
Secondo il vice presidente dell'analytics development di IBM un modello a sé stante è troppo fragile per il mondo reale. Ha bisogno di vivere come un sistema più grande che sappia essere fluido.
Nirmal si chiede quali caratteristiche possano rendere i sistemi di AI fluidi? Secondo il manager di IBM la chiave sta nel progettarli e realizzarli con cinque attributi in mente:
1. Gestito Perché l'intelligenza artificiale e l'apprendimento automatico facciano un lavoro reale e duraturo, hanno bisogno di un'infrastruttura attenta, duratura e trasparente. Ciò inizia con l'identificazione delle pipeline di dati e la correzione dei problemi con dati errati o mancanti. Significa anche governance dei dati integrata e controllo della versione per i modelli. La versione di ciascun modello - e potresti usarne migliaia contemporaneamente - indica i suoi input. Vorresti saperlo, e così i regolatori.
2. Resiliente Essere fluidi significa accettare fin dall'inizio che i modelli di AI possano cadere fuori sincrono. Quella "deriva" può accadere rapidamente o lentamente a seconda di cosa sta cambiando nel mondo reale. Da questa realtà ne deriva un'imperativo tecnologico: "Esegui l'equivalente di analisi dei dati dei test di regressione e fai spesso i test, ma senza perdere tempo".
Questo richiede un sistema che consenta di impostare soglie di precisione e avvisi automatici per far sapere quando i modelli richiedono attenzione. Si avrà bisogno di riqualificare il modello su vecchi dati, acquisire nuovi dati o riprogettare le tue funzionalità da zero? La risposta dipende dai dati e dal modello, ma il primo passo è sapere che c'è un problema.
3. Esecuzione La maggior parte dell'intelligenza artificiale è intensa dal punto di vista computazionale, sia durante l'allenamento che dopo il deploing. E la maggior parte dei modelli ha bisogno di segnare transazioni in millisecondi, non minuti, per prevenire frodi o sfruttare alcune opportunità fugaci. Idealmente, è possibile addestrare modelli su GPU e quindi distribuirli su CPU ad alte prestazioni, insieme a memoria sufficiente per lo scoring in tempo reale. Ovviamente si vuole che tutto funzioni velocemente e senza errori, indipendentemente da dove ci si trovi: on-prem, cloud o multicloud.
4. Misurabile Per il momento, i budget per i progetti di IA e di apprendimento automatico sono generosi, ma tali budget si esauriranno se i team di scienziati non saranno in grado di fornire risultati concreti. Bisogna pensare fin dall'inizio a quantificare e visualizzare ciò che stai imparando e come cambia: miglioramenti nell'accesso ai dati e volume di dati, miglioramenti nella precisione del modello e, infine, miglioramenti alla linea di fondo.
Non si deve pensare solo a ciò che si deve misurare ora, ma anche a ciò che si vorrebbe misurare in futuro, quando il lavoro dei data scientist sarà maturo. Il sistema è abbastanza fluido da monitorare gli obiettivi a lungo termine?
5. Continuo Se la caratteristica chiave è che i dati non si fermano allora il quinto e ultimo aspetto di un'AI fluida riguarda l'apprendimento continuo mentre il mondo cambia. Bisogna assicurarsi di utilizzare strumenti come i notebooks Jupyter e Zeppelin che possono collegarsi ai processi per pianificare le valutazioni e riqualificare i modelli.
Allo stesso tempo, bisogna aspettarsi che l'apprendimento cresca e si evolva man mano che assorba i vantaggi e le limitazioni di vari algoritmi, linguaggi, set di dati e strumenti.
L'AI fluida richiede un miglioramento continuo di dati, strumenti e sistemi, ma anche un miglioramento continuo da parte di tutti coloro che fanno il lavoro.
La scienza dei dati è un viaggio. Suona romantico e sdolcinato, ma secondo Dinesh Nirmal è vero. Prestando attenzione a questi cinque attributi secondo il manager di IBM si porterà l'attenzione su ogni momento del design.
Solo una narrativa di marketing per sottolineare come IBM abbia già una soluzione perfetta? Frose. Una cosa è profondamente vera: i dati non saranno mai fermi. Questa caratteristica della varietà e velocità dei dati ci dice che le AI sono innanzitutto un tema filosofico. Cosa vuol dire vedere e leggere i dati è un problema di attitudine del sistema, cioè di una sua ontologia e di epistemologia. Poi in seconda istanza diviene un problema tecnico. Siamo pronti alla sfida?