AI e medicina: tutto da rifare?

La medicina sta subendo importanti trasformazioni ad opera delle intelligenze artificiali. Ma questi sistemi sono validi? Hanno dei bias - pregiudizi -? Queste sono in grado di aiutare o sostituire il medico o sono dei nuovi simulacri senza valore scientifico? Le domande - e le preoccupazioni anche legittime - sono tante. Qui un longread per cercare di impostare il problema e offrire delle domande per guidare la ricerca delle risposte.

Per cercare di giustificare un titolo così provocatorio abbiamo avuto bisogno di uno spazio più lungo del solito. Il lettore che avrà la pazienza di arrivare fino in fondo al post troverà la risposta a una domanda così radicale. Intanto qui diamo un rapido schema del contributo.

In un primo momento racconteremo delle storie. Sono le storie di un'azienda, la iMerit, e di alcuni suoi dipendenti, che stanno "scrivendo" i progressi della medicina basata sull'AI. Tutto questo è nella sezione AI e medicina.

Presentata questa realtà, faremo un salto in dietro nel tempo, alla Seconda Guerra Mondiale, dove seguiremo la celebre storia di un matematico che apparteneva a un gruppo speciale di ricercatori dell'esercito USA, Abraham Wald, quello che lui ha fatto durante il conflitto mondiale è una sorta di paradigma per comprendere la criticità del modello presente. Tutto questo è nella sezione Una storia da conoscere, ovvero un interludio di metodo.

Infine nella terza sezione renderemo ragione della nostra tesi presentando le domande di senso sullo state attuale dell'innovazione in medicina e su come si può cercare di poter ottenere forme di sviluppo etico con i nuovi strumenti delle AI. In questa sezione potremmo rispondere alla cocente domanda: "AI e medicina: tutto da rifare?". Tutto questo si trova nella sezione Medicina e AI.

Fatte le dovute premesse, lasciamoci interrogare.

AI e medicina

Partiamo da un articolo molto interessante uscito qualche tempo fa sul New York Times. Il reportage parte dalla storia di Namita Pradhan, una donna seduta a una scrivania nel centro di Bhubaneswar, in India, a circa 40 miglia dal Golfo del Bengala, fissando un video registrato in un ospedale dall'altra parte del mondo.

Il video mostrava l'interno del colon di qualcuno. La signora Pradhan era alla ricerca di polipi, piccole escrescenze nell'intestino crasso che potrebbero portare al cancro. Quando ne ha trovato uno - sembrano un po 'un brufolo viscido e arrabbiato - lo ha segnato con il mouse e la tastiera del suo computer, disegnando un cerchio digitale attorno al piccolo rigonfiamento.

Non ha mai studiato medicina, ma il suo lavoro consiste nell'aiutare a insegnare un sistema di intelligenza artificiale come fare il lavoro di un dottore.

La signora Pradhan era una delle decine di giovani donne e uomini indiani allineati alle scrivanie al quarto piano di un piccolo edificio per uffici. Sono stati addestrati per annotare tutti i tipi di immagini digitali, individuando qualsiasi cosa, dai segnali di stop e pedoni nelle scene di strada alle fabbriche e alle petroliere nelle foto satellitari.

L'intelligenza artificiale, come direbbe la maggior parte delle persone nel settore tecnologico, è il futuro del loro settore e sta migliorando rapidamente grazie a qualcosa chiamato machine learning. Ma il settore raramente discute del processo ad alta intensità di lavoro che serve per la sua creazione. L'intelligenza artificiale sta imparando dagli umani. Moltissimi umani.

Prima che un sistema di intelligenza artificiale possa imparare, qualcuno deve etichettare i dati forniti ad esso. Gli umani, ad esempio, devono individuare i polipi. Il lavoro è vitale per la creazione di intelligenza artificiale come auto a guida autonoma , sistemi di sorveglianza e assistenza sanitaria automatizzata.

Le aziende tecnologiche tacciono su questo lavoro. E affrontano crescenti preoccupazioni da parte degli attivisti della privacy per la grande quantità di dati personali che stanno archiviando e condividendo con aziende esterne.

Uno dei posti dove le persone svolgono il lavoro infinitamente ripetitivo necessario a marcare i dati, cioè fare ciò che serve per insegnare i sistemi di intelligenza artificiale, è una società chiamata iMerit.

Quello che emerge dal report del New York Times non assomiglia molto al futuro - o almeno a quello automatizzato che ci si potrebbe immaginare. Gli uffici avrebbero potuto essere call center o centri di elaborazione dei pagamenti. Uno era un ex condominio logoro nel mezzo di un quartiere residenziale a basso reddito nella zona occidentale di Calcutta che pullulava di pedoni, risciò e venditori ambulanti.

Altre decine di migliaia di lavoratori, appaltatori indipendenti che lavorano abitualmente nelle loro case, annotano anche i dati attraverso servizi di crowdsourcing come Amazon Mechanical Turk, che consente a chiunque di distribuire compiti digitali a lavoratori indipendenti negli Stati Uniti e in altri paesi. I lavoratori guadagnano qualche centesimo per ogni etichetta.

Con sede in India, iMerit etichetta i dati di molti dei più grandi nomi dell'industria tecnologica e automobilistica. Ha rifiutato di nominare al giornalista del New York Times i nomi di questi clienti, citando accordi di riservatezza. Ma recentemente ha rivelato che i suoi oltre 2.000 lavoratori in nove uffici in tutto il mondo stanno contribuendo a un servizio di etichettatura dei dati online di Amazon chiamato SageMaker Ground Truth.

Un giorno, chissà quando, l'intelligenza artificiale potrebbe svuotare il mercato del lavoro. Ma per ora, sta generando posti di lavoro relativamente poco remunerativi. Il mercato dell'etichettatura dei dati ha superato i 500 milioni di dolalri nel 2018 e raggiungerà 1,2 miliardi di dollari entro il 2023, secondo la società di ricerca Cognilytica. Questo tipo di lavoro, ha dimostrato lo studio, ha rappresentato l'80 percento del tempo impiegato nella costruzione della tecnologia AI.

Il lavoro di etichettatura è uno sfruttamento? Dipende da dove vivi e da cosa stai lavorando. In India, è un biglietto per elevarsi verso la classe media. A New Orleans, è un lavoro abbastanza decente. Per qualcuno che lavora come appaltatore indipendente, è spesso un vicolo cieco.

I ricercatori dell'AI sperano di poter costruire sistemi in grado di apprendere da piccole quantità di dati. Ma per il prossimo futuro, il lavoro umano è essenziale.

"Questo è un mondo in espansione, nascosto sotto la tecnologia", ha affermato Mary Gray, antropologa di Microsoft e co-autrice del libro " Ghost Work", che esplora il mercato dell'etichettatura dei dati. "È difficile tenere gli umani fuori dal giro."

Ma torniamo alla storia di Namita Pradhan. Namita lavora a Bhubaneswar, la cosiddetta Città dei Templi. Gli antichi santuari indù sorgono sui mercati lungo la strada all'estremità sud-occidentale della città - gigantesche torri di pietra accatastate che risalgono al primo millennio. Nel centro della città, molte strade non sono asfaltate. Mucche e cani selvatici si snodano tra ciclomotori, macchine e camion.

La città - popolazione: 830.000 abitanti - è anche un centro in rapida crescita per il lavoro online. A circa 15 minuti di auto dai templi, su una strada (pavimentata) vicino al centro città, un edificio bianco a quattro piani si trova dietro un muro di pietra. All'interno, ci sono tre stanze piene di lunghe file di scrivanie, ognuna con il proprio display per computer a grande schermo. È qui che Namita Pradhan trascorre le sue giornate a etichettare i video.

La signora Pradhan, 24 anni, è cresciuta appena fuori città e si è laureata in un college locale, dove ha studiato biologia e altre materie prima di prendere il lavoro con iMerit. È stato raccomandato da suo fratello, che stava già lavorando per l'azienda. Ha vissuto in un ostello vicino al suo ufficio durante la settimana e ha preso l'autobus per tornare a casa sua ogni fine settimana.

Il reporter del New York Times ha visitato l'ufficio di Namita in un giorno temperato di gennaio. Alcune delle donne sedute alle lunghe file di scrivanie erano vestite in modo tradizionale: sari rosso brillante, lunghi orecchini d'oro. La signora Pradhan indossava una camicia a maniche lunghe verde, pantaloni neri e scarpe stringate bianche mentre annotava i video per un cliente negli Stati Uniti.

Nel corso di quella che era una tipica giornata di otto ore, la timida 24enne ha guardato una dozzina di video sulla colonscopia, invertendo costantemente il video per dare un'occhiata più da vicino ai singoli frame. Ogni tanto trovava quello che cercava. Lo avrebbe lazato con una "scatola di delimitazione" digitale. Disegnò centinaia di queste scatole di delimitazione, etichettando i polipi e altri segni di malattia, come coaguli di sangue e infiammazione.

Il suo cliente, una società negli Stati Uniti di cui iMerit non è autorizzata a divulgare il nome, finirà per alimentare il suo lavoro in un sistema di intelligenza artificiale in modo che possa imparare a identificare le condizioni mediche da solo. Il proprietario dei due punti non è necessariamente consapevole che il video esiste. La signora Pradhan non sa da dove provengano le immagini. Nemmeno iMerit.

La signora Pradhan ha appreso il compito durante sette giorni di videochiamate online con un medico non specializzato, con sede a Oakland, in California, che aiuta a formare i lavoratori in molti uffici iMerit. Ma alcuni si chiedono se i medici esperti e gli studenti di medicina debbano fare questa etichettatura.

Questo lavoro richiede persone "che hanno un background medico e le relative conoscenze in anatomia e patologia", ha affermato al New York Times il Dr. George Shih, radiologo presso Weill Cornell Medicine e NewYork-Presbyterian e co-fondatore della start-up MD.ai ., che aiuta le organizzazioni a costruire intelligenza artificiale per l'assistenza sanitaria.

Quando abbiamo parlato del suo lavoro, la signora Pradhan lo ha definito "piuttosto interessante", ma stancante. Per quanto riguarda la natura grafica dei video? "All'inizio è stato disgustoso, ma poi ci si abitua".

Le immagini che ha etichettato erano orribili, ma non così orribili come altre gestite da iMerit. I loro clienti stanno anche sviluppando un'intelligenza artificiale in grado di identificare e rimuovere immagini indesiderate sui social network e altri servizi online . Ciò significa etichette per pornografia, violenza grafica e altre immagini nocive.

La signora Pradhan e i suoi colleghi etichettatori guadagnano tra 150 e 200 dollari al mese, il loror lavoro genera, di contro, entrate tra 800 e 1.000 dolalri per iMerit, secondo un dirigente dell'azienda.

Negli ultimi sei anni, iMerit ha assunto più di 1.600 studenti di Anudip. Ora impiega circa 2.500 persone in totale. Oltre l'80% proviene da famiglie con redditi inferiori a 150 dollari al mese.

Fondata nel 2012 e ancora un'azienda privata, iMerit ha i suoi dipendenti che svolgono attività digitali come trascrivere file audio o identificare oggetti nelle foto. Le aziende di tutto il mondo pagano all'azienda l'uso dei propri dipendenti e, sempre più, assistono al lavoro sull'intelligenza artificiale.

L'età media di questi lavoratori è di 24 anni e la maggior parte proviene da villaggi rurali. La crescita di iMerit e società simili rappresenta uno spostamento dai servizi di crowdsourcing come Mechanical Turk. iMerit e i suoi clienti hanno un maggiore controllo su come vengono formati i lavoratori e su come viene svolto il lavoro.

Una storia da conoscere, ovvero un interludio di metodo

È a questo punto che racconterei la storia di Abraham Wald e dei fori di proiettile mancanti [1].

La storia, come molte storie della Seconda guerra mondiale, inizia con i nazisti che costringono un ebreo a fuggire dall’Europa e termina con i nazisti che rimpiangono di averlo fatto. Abraham Wald nacque nel 1902 in quella che allora era la città di Klausenburg, in quello che allora era l’Impero austroungarico. Quando Wald raggiunse l’adolescenza una guerra mondiale era ormai andata in archivio e la sua città natale era diventata Cluj, in Romania. Abraham era nipote di un rabbino e figlio di un fornaio kosher, ma il più giovane degli Wald fu fin da subito un matematico. Il suo talento per la disciplina fu riconosciuto molto presto e gli valse un’ammissione all’università di Vienna, dove fu sedotto da argomenti astratti e reconditi persino per gli standard della matematica pura: la teoria degli insiemi e gli spazi metrici.

Tuttavia, quando Wald terminò gli studi a metà degli anni Trenta, l’Austria si trovava in un periodo di grave crisi economica e le possibilità che uno straniero fosse assunto come professore a Vienna erano nulle. A salvare Wald fu un’offerta di lavoro che ricevette da Oskar Morgenstern. In seguito, Morgenstern sarebbe emigrato negli Stati Uniti, dove avrebbe contribuito a inventare la teoria dei giochi, ma nel 1933, in qualità di direttore dell’Istituto austriaco di ricerche economiche, egli assunse Wald offrendogli un piccolo stipendio in cambio di occasionali incarichi matematici. Per Wald accettare la proposta di Morgenstern fu una mossa azzeccata: l’esperienza che maturò in campo economico gli valse l’offerta di un posto alla Cowles Commission, un istituto economico che all’epoca aveva sede a Colorado Springs. Sebbene la situazione politica in Austria continuasse a peggiorare, Wald era tuttavia riluttante a compiere un passo che l’avrebbe allontanato per sempre dalla matematica pura. Fu l’annessione nazista dell’Austria a rendergli notevolmente più facile la decisione di trasferirsi in America. Dopo che ebbe trascorso pochi mesi in Colorado, si vide offrire una cattedra in statistica alla Columbia University; Wald fece di nuovo i bagagli e si trasferì a New York.

Fu da lì che combatté la guerra.

Il Gruppo di ricerche statistiche (SRG), in cui Wald passò gran parte della Seconda guerra mondiale, era un programma segreto che metteva la potenza congiunta degli statistici statunitensi al servizio dello sforzo bellico, un po’ come il Manhattan Project, con la differenza che le armi create dal gruppo non erano esplosivi ma equazioni, e che la sede dell’SRG era effettivamente a Manhattan, al 401 West della 118ma Strada, nel quartiere di Morningside Heights, ad appena un isolato dalla Columbia University. Oggi l’edificio ospita appartamenti per i membri della facoltà della Columbia e alcuni studi medici, ma nel 1943 era il centro nevralgico della matematica di guerra, crepitante d’attività. C’era il Gruppo di matematica applicata della Columbia, dove decine di giovani donne chine su calcolatrici da tavolo Marchant ricavavano formule della curva ottimale che un caccia avrebbe dovuto descrivere nell’aria per tenere nel mirino un apparecchio nemico. In un altro locale, una squadra di ricercatori di Princeton elaborava protocolli per bombardamenti strategici. E il team della Columbia che partecipava al progetto della bomba atomica era proprio lì accanto.

Ma l’SRG era il più dinamico, e in definitiva il più influente, di tutti questi gruppi. L’atmosfera che vi si respirava era una combinazione dell’apertura mentale e dell’intensità intellettuale di un dipartimento universitario e di quel senso condiviso di risolutezza che si realizza solo quando la posta in gioco è alta. «Quando facevamo delle raccomandazioni» scrisse in seguito W. Allen Wallis, che ne era il direttore, «le conseguenze erano spesso concrete. Gli aerei da caccia entravano in combattimento con le mitragliatrici caricate in base alle raccomandazioni di Jack Wolfowitz sull’opportunità di mischiare munizioni di tipo diverso, e poteva darsi che i piloti tornassero oppure no. Gli aeroplani della Marina lanciavano razzi i cui propellenti erano stati approvati sulla base dei progetti di collaudo per campione elaborati da Abe Girshick, e poteva darsi che i razzi esplodessero distruggendo i nostri stessi apparecchi oppure che distruggessero il bersaglio».

Il talento matematico era pari alla gravità del compito. Per citare le parole di Wallis, l’SRG era «il gruppo di statistici più straordinario che si fosse mai allestito, tenendo conto sia del numero sia della qualità dei suoi componenti». Ne facevano parte Frederick Mosteller, che in seguito avrebbe fondato il dipartimento di statistica di Harvard, e Leonard Jimmie Savage, pioniere della teoria delle decisioni e grande sostenitore della disciplina che avrebbe assunto il nome di statistica bayesiana. Era un gruppo in cui Milton Friedman, futuro Nobel per l’economia, era spesso al quarto posto per brillantezza tra i presenti.

La persona più brillante era in genere Abraham Wald.

Wald era stato insegnante di Allen Wallis alla Columbia e aveva il ruolo di una sorta di eminenza matematica per il gruppo. Essendo ancora un «cittadino straniero di un paese nemico», tecnicamente non gli era consentito di visionare i rapporti secretati che egli stesso produceva: la battuta che girava sull’SRG era che le segretarie avevano l’obbligo di strappargli ogni foglio di carta dalle mani non appena l’avesse riempito. In un certo senso la sua partecipazione all’attività dell’SRG era poco verosimile. Da sempre Wald era incline all’astrazione e rifuggiva dalle applicazioni dirette della teoria, ma aveva motivazioni ovvie per usare il proprio talento contro le potenze dell’Asse. E quando avevi bisogno di tradurre un’idea vaga in solida matematica, Wald era la persona che desideravi avere al tuo fianco.

Adesso veniamo al problema che vogliamo esaminare. Siccome non volete che i vostri apparecchi vengano abbattuti dai caccia nemici, li corazzate. Ma le armature rendono un aeroplano più pesante, e aeroplani più pesanti sono meno manovrabili e consumano più carburante. Insomma, corazzare troppo gli aeroplani costituisce un problema; corazzarli troppo poco costituisce a sua volta un problema. Da qualche parte tra questi due estremi c’è una scelta ottimale. La ragione per cui avete relegato un team di matematici in un appartamento di New York City è stabilire dove cada questa scelta ottimale.

I militari fornirono all’SRG alcuni dati che ritenevano potessero essere utili. Gli apparecchi americani che tornavano dai combattimenti nei cieli d’Europa erano crivellati di proiettili, ma i danni non erano distribuiti in modo uniforme sui velivoli. I fori di proiettile nella fusoliera erano più numerosi di quelli nei motori.

Parte dell’aeroplano Fori di proiettile per piede quadrato

Motore 1,11

Fusoliera 1,73

Sistema d’alimentazione 1,55

Resto dell’aereo 1,8

In questi dati gli ufficiali dell’esercito vedevano l’opportunità di compiere una scelta efficiente: è possibile ottenere lo stesso livello di protezione utilizzando una minor corazzatura se si concentrano le protezioni sulle parti in cui ce n’è più bisogno, ovvero nelle zone in cui velivoli vengono colpiti più spesso. Ma, esattamente, quanto maggiore avrebbe dovuto essere la corazzatura in quelle parti più bersagliate degli aerei? È per ottenere una risposta a questa domanda che gli ufficiali si erano rivolti a Wald. Non fu la risposta che ricevettero.

La corazzatura, disse loro Wald, non va dove ci sono i fori di proiettile. Va dove non ci sono i fori di proiettile: sui motori.

L’intuizione di Wald consisteva nel porsi una semplice domanda: dov’erano i fori mancanti? Dov’erano quei fori di proiettile che avrebbero dovuto trovarsi sul carter del motore se i danni fossero stati distribuiti uniformemente sull’intero velivolo? Wald era sicuro di conoscere la risposta. I fori di proiettile mancanti si trovavano sugli aerei abbattuti. La ragione per cui gli aerei tornavano con un minor numero di colpi al motore era che gli aerei colpiti al motore non tornavano. D’altra parte, il gran numero di apparecchi che facevano ritorno alla base con la fusoliera ridotta a un colabrodo era una prova decisamente convincente del fatto che i colpi alla fusoliera potevano (e perciò avrebbero dovuto) essere tollerati. Se andate nella sala di rianimazione di un ospedale, vi troverete molte più persone con ferite di proiettile alle gambe che non al petto. Ciò, tuttavia, non è dovuto al fatto che la gente non venga colpita al petto, quanto piuttosto al fatto chela gente che viene colpita al petto spesso non ce la fa.

C’è un vecchio trucco matematico che rende il quadro perfettamente chiaro: assegnare ad alcune variabili un valore pari a zero. Nel nostro caso la variabile su cui intervenire è la probabilità che un apparecchio colpito da un proiettile al motore riesca a restare in aria. Porre tale probabilità pari a zero equivale ad affermare che un singolo colpo al motore garantisce che l’aereo sia abbattuto. Come si presenterebbero i dati se le cose stessero così? Avremmo aeroplani che tornano alla base con fori di proiettile su tutte le ali, la fusoliera, il muso, ma nemmeno un foro sul motore. L’analista mi litare ha due opzioni per spiegare questo fatto: o i proiettili tedeschi colpiscono tutte le parti degli aerei tranne una, oppure il motore è un punto di assoluta vulnerabilità. Entrambe le ipotesi giustificano i dati, ma la seconda è molto più logica. La corazzatura va messa dove non ci sono fori di proiettile.

Le raccomandazioni di Wald vennero subito messe in atto; la marina e l’aeronautica militari statunitensi le adottavano ancora ai tempi della guerra di Corea e di quella del Vietnam. Non so dirvi con esattezza quanti aeroplani americani salvarono, ma le organizzazioni che oggi hanno preso il posto dell’SRG in ambito militare, con la loro enorme produzione di dati, ne hanno senza dubbio un’idea molto precisa. Una cosa che i vertici delle forze armate degli Stati Uniti hanno compreso molto bene da tempo è che le nazioni non vincono le guerre perché hanno una maggior dote di coraggio rispetto alle nazioni nemiche, o perché sono più libere, o perché godono di un leggero favoritismo divino. Di solito i vincitori sono coloro che hanno il 5 per cento in meno di aerei abbattuti, o usano il 5 per cento in meno di carburante, o sono in grado di fornire il 5 per cento in più di approvvigionamenti alle loro truppe di fanteria al 95 per cento del costo. Non è il materiale con cui si fanno i film di guerra, ma è il materiale di cui sono fatte le guerre. E la matematica ne costituisce sempre una componente fondamentale.

Perché Wald vedeva ciò che gli ufficiali, che pure avevano una conoscenza e una comprensione enormemente maggiori dei combattimenti aerei, non riuscivano a vedere? Questa sua capacità è riconducibile a un modo di pensare che è il frutto di un’educazione matematica. «Quali ipotesi si stanno facendo? E sono ipotesi giustificate?» chiede sempre un matematico. La cosa può essere irritante, ma può rivelarsi anche molto utile. Nel nostro caso gli ufficiali, seppur inconsapevolmente, stavano facendo la seguente supposizione: gli aeroplani che tornavano salvi alla base erano un campione casuale di tutti gli aeroplani. Se ciò fosse vero, sarebbe possibile trarre conclusioni relative alla distribuzione dei fori di proiettile su tutti gli aerei esaminando la distribuzione dei fori di proiettile solo sugli aerei che fanno ritorno alla base. Quando ci si rende conto di aver fatto quella supposizione, tuttavia, si capisce subito che non ha senso; non c’è alcuna ragione di aspettarsi che gli aerei abbiano la stessa probabilità di farcela indipendentemente da dove vengono colpiti. Per usare un termine che fa parte del gergo […] il tasso di sopravvivenza degli aerei e l’ubicazione dei fori di proiettile sono correlati.

L’altro vantaggio di cui godeva Wald era la sua propensione all’astrazione. Wolfowitz, che aveva studiato sotto di lui alla Columbia, scrisse che i problemi preferiti da Wald erano «tutti del genere più astratto» e che egli era «sempre pronto a parlare di matematica, ma non aveva alcun interesse per la sua volgarizzazione né per le applicazioni specifiche».

La personalità di Wald gli rendeva difficile focalizzare l’attenzione sui problemi pratici, è vero. Ai suoi occhi, i dettagli relativi ad aerei e armi da fuoco erano come un’imbottitura: guardando attraverso di essi riusciva a cogliere la struttura matematica sottostante, i chiodi e le strutture di sostegno che tenevano insieme la storia. Qualche volta quest’approccio può portare a ignorare aspetti del problema che sono realmente importanti, ma permette anche di vedere l’ossatura comune condivisa da problemi che in superficie sembrano molto diversi tra loro. In questo modo si dimostra di avere un’esperienza significativa anche in ambiti in cui, in apparenza, non se ne ha alcuna.

Per un matematico, alla base del problema dei fori di proiettile c’è un fenomeno che prende il nome di survivorship bias. È un effetto che si presenta di continuo in ogni tipo di contesto. Una volta che, come Wald, si acquista familiarità con il survivorship bias, si è predisposti a riconoscerlo ovunque si nasconda.

Prendiamo i fondi comuni d’investimento. La stima della performance dei fondi è un ambito in cui non si vogliono commettere errori, nemmeno piccoli. Uno spostamento dell’1 per cento nel rendimento annuale può significare la differenza tra un portafoglio azionario remunerativo e uno assolutamente scadente. I fondi comuni che Morningstar inserisce nella categoria denominata Large Blend, fondi che investono in grandi aziende a cui corrisponde grossomodo l’indice S&P 500, sembrano appartenere al primo tipo. Questi fondi sono cresciuti in media del 178,4 per cento tra il 1995 e il 2004, ovvero di un robusto 10,8 per cento all’anno. Si direbbe proprio che, se aveste dei liquidi a disposizione, fareste bene a investire in quei fondi, o no?

Ebbene no. Uno studio del 2006 eseguito dalla Savant Capital ha gettato una luce un po’ più fredda su quelle cifre. Riconsideriamo il modo in cui Morningstar le genera. È il 2004, prendiamo tutti i fondi comuni d’investimento classificati come Large Blend e vediamo quanto sono cresciuti negli ultimi dieci anni.

Il fatto è che manca qualcosa: i fondi che non esistono più. I fondi comuni d’investimento non vivono all’infinito. Alcuni prosperano, altri si estinguono. Quelli che si estinguono sono, nel complesso, quelli che non producono profitto. Perciò, giudicare il valore dei fondi comuni in dieci anni in base a quelli che ancora esistono alla fine del decennio è come giudicare le manovre evasive dei nostri piloti contando i fori di proiettile negli aeroplani che fanno ritorno alla base. Che cosa dovremmo dedurre se non trovassimo mai più di un foro per apparecchio? Non che i nostri piloti sono bravissimi a evitare il fuoco nemico, ma che gli aerei che sono stati colpiti due volte sono precipitati in fiamme. Lo studio della Savant ha evidenziato che, tenendo conto delle performance dei fondi estinti oltre a quelle dei fondi sopravvissuti, il tasso di rendi mento scendeva al 134,5 per cento, corrispondente a un molto più mediocre 8,9 per cento all’anno. Ricerche più recenti hanno confermato queste conclusioni: secondo un ampio studio pubblicato sulla rivista «Review of Finance» su quasi 5000 fondi co muni d’investimento, il tasso di rendimento in eccesso dei 2641 fondi sopravvissuti è più alto di circa il 20 per cento rispetto alla stessa cifra calcolata tenendo conto dei fondi che non ce l’hanno fatta. La portata dell’effetto di sopravvivenza potrebbe aver sorpreso gli investitori, ma probabilmente non avrebbe sorpreso Abraham Wald.

Dov’è la matematica? Wald era un matematico, d’accordo, e non si può negare che la sua soluzione del problema dei fori di proiettile fosse ingegnosa, ma che cosa c’è di matematico in quella soluzione? Non si vedono identità trigonometriche, integrali, disuguaglianze o altre formule.

Prima di tutto: Wald usò delle formule. Ecco quale aspetto ha effettivamente una pagina tratta dal rapporto scritto da Wald:

Spero non siate rimasti troppo scioccati.

Eppure, l’idea concreta che sottostà all’intuizione di Wald non richiede nessun formalismo come quello riportato sopra. È un’idea che abbiamo già spiegato senza ricorrere a notazioni matematiche di alcun genere. Perciò nasce una domanda. Come i dati sono una questione che si lega alla matematica? Cosa rende tutto ciò matematica? Non si tratta di semplice buonsenso?

Sì, la matematica è buonsenso; e a un livello elementare tale verità risulta evidente. La matematica è lo studio di cose che si manifestano in un certo modo perché on esiste un altro modo in cui potrebbero manifestarsi.

In altri termini la matematica non è che l’estensione del buon senso con altri mezzi.

Medicina e AI

La storia di Wald mostra come non sia così immediato passare dai dati all'informazione e come a volte i dati a disposizione offuschino il significato della parte dei dati più importanti: quelli a valore zero o non disponibili.

Insomma non basta parlare di dataset ma serve qualcosa che dia senso a questi dati se non vogliamo incorrere in errori che, specie nel campo medico, rischiano di essere devastanti. Si pensi cosa può significare affidarsi a sistemi di AI addestrati su dati marcati in maniera non qualificata e nelle formule dell'accottimo.

In questo modello economico in cui la soluzione viene portata da start-up che vogliono, per citare Peter Thiel, "be fast, be disruptive", l'importante è presentare una soluzione innovativa che sia capace di vendere ma lo standard medico e i valori che la medicina ha sempre riscontrato nella persona che si fa paziente richiedono ben altri standard.

Inoltre si pensi su quali dati stiamo lavorando. In un processo di markup e di addestramento che si basa sull'outsurcing e sull'opaca "catena di montaggio" che cerca di minimizzare i costi, non abbiamo quasi possibilità di implementare ragionamenti come quelli di Wald.

Le AI che stiamo sviluppando per la medicina soffrono tutte di survivor bias? Come i dati medici diventano significativi? In fondo non stiamo facendo con le AI lo stesso procedimento che facevamo con gli aerei? Non stiamo cercando di rinforzare l'apprendimento della macchina là dove sono i punti dato ignorando il fatto che ci mancano pazienti con dati chiave per avere la risposta che cerchiamo?

Una proposta interessante su questi temi viene da uno studio recentemente pubblicato da un gruppo di ricercatori molto variegato: Timnit Gebru di Microsoft Research, Jamie Morgenstern del Georgia Tech, Briana Vecchione della Cornell University, Jennifer Wortman Vaughan di Microsoft Research, Hanna Wallach di Microsoft Research, Hal Daumé III e Kate Crawford.

Per definizione, i modelli di apprendimento automatico vengono formati utilizzando i dati. In effetti, il set di dati su cui viene formato un modello di apprendimento automatico influenza fondamentalmente il suo comportamento. Tuttavia, attualmente non esiste un modo standard per documentare come e perché è stato creato un set di dati, quali informazioni contiene, per quali attività dovrebbe e non dovrebbe essere utilizzato e se solleva preoccupazioni etiche o legali. Questa mancanza di documentazione è particolarmente problematica quando i set di dati vengono utilizzati per addestrare modelli di apprendimento automatico per applicazioni ad alto rischio.

Per venire in contro a tali difficoltà i ricercatori propongono quindi il concetto di schede tecniche che accompagnino i set di dati (in inglese suona molto più dinamico: datasheets for datasets). Nell'hardware del computer, è consuetudine standard accompagnare ogni componente con una scheda tecnica che fornisce le caratteristiche operative standard, i risultati dei test, l'uso raccomandato e altre informazioni. Per analogia, i ricercatori raccomandano che ogni set di dati sia accompagnato da una scheda tecnica che documenta la sua motivazione e creazione, composizione, usi previsti, distribuzione, manutenzione e altri dettagli critici. Quello che questo studio precede è che tali schede tecniche aumenteranno la trasparenza e la responsabilità nella comunità dell'apprendimento automatico.

Nello studio in questione, per mettere la proposta in un contesto storico, si mostra l'evoluzione degli standard di sicurezza riguardanti automobili, assistenza sanitaria ed elettronica. Le lezioni apprese dai pericoli storici delle nuove tecnologie in questi settori e le misure di sicurezza messe in atto per combatterli possono aiutare a pianificare un percorso per l'AI.

Il paper di questo gruppo di ricerca sui dati propone una serie di domande che dovrebbero costituire gli elementi che un foglio dati dovrebbe probabilmente contenere. Perché queste domande? I ricercatori raccontano che sono diversi gli obiettivi fondamentali hanno guidato la formazione di queste domande. In primo luogo, un professionista dovrebbe essere in grado di decidere, leggendo un foglio dati, quanto sia appropriato un set di dati per un'attività, quali sono i suoi punti di forza e limiti e come si adatta all'ecosistema più ampio. In secondo luogo, i creatori di un set di dati dovrebbero essere in grado di utilizzare le domande su un foglio dati per aiutarli a pensare ad aspetti della creazione di dati che potrebbero non essersi altrimenti verificati.

Le domande che vengono fornite per creare un datasheet sono suddivise in sette categorie: motivazione per la creazione del set di dati; composizione del set di dati; processo di raccolta dati; preelaborazione dei dati; distribuzione del set di dati; manutenzione del set di dati; e considerazioni legali ed etiche.

Questa lista di domande non intende essere definitiva e, nelle parole degli autori, ci si augura che questo articolo avvii una conversazione più ampia su come la provenienza dei dati, l'etica, la privacy e la documentazione possano essere gestite dalla comunità dei curatori dei dati. Non tutte le domande proposte evidentemente sono applicabili a tutti i set di dati, nel qual caso possono semplicemente essere escluse perché non pertinenti.

Di seguito sono riportati alcuni esempi di domande che sono nel paper:

Perché è stato creato il set di dati? (ad esempio, c'era un compito specifico in mente? c'era un vuoto specifico che doveva essere colmato?)
Chi ha finanziato la creazione del set di dati?
Quale preelaborazione / pulizia è stata eseguita? (ad esempio, discretizzazione o bucket, tokenizzazione, tag di parte del discorso, estrazione di funzionalità SIFT, rimozione di istanze)
Se si riferisce alle persone, è stato loro detto per cosa sarebbe stato utilizzato il set di dati e hanno acconsentito? Se é cosi, come? Sono stati dotati di meccanismi per revocare il consenso in futuro o per determinati usi?
Il set di dati verrà aggiornato? In tal caso, con quale frequenza e da chi?

Quello che emerge da questo studio è che, in definitiva, la comunità dei ricercatori vede gli sforzi verso un'annotazione più dettagliata dei set di dati come un passo fondamentale per rafforzare l'equità, la responsabilità e la trasparenza dei sistemi di apprendimento automatico.

Di fatto le domande dei datasheets sono tecniche ma non nel senso dei parametri che troveremmo per i dati di targa di un componente elettronico. Sono domande trasversali, di senso, sono domande che precedono e sostengono la riflessione e il giudizio etico.

E qui torniamo a quanto visto con Abraham Wald. La questione sui dati che servono per l'AI, specie per quella in ambiti critici come la medicina, sono questioni di buon senso. Allora parafrasando quanto detto primo potremmo dire che l'etica è una forma di buonsenso e per domande lineari e semplici la verità etica risulta evidente. L'etica è lo studio con regole proprie e metodo scientifico della ricerca dell'agire corretto e buono. Di quelle forme dell'agire che garantiscono non solo il rispetto dei valori ma anche la tutela di ogni uomo, specialmente dei più vulnerabili. Tanto più l'agire si fa complesso e le questioni intricate, tanto più serve l'approccio scientifico e sistematico dell'etica perché la risposta è meno evidente e meno lineare.

In altri termini l'etica non è che l’estensione del buon senso con mezzi scientifici e filosofici. L'etica è una formalizzazione della domanda di senso che chiede di essere vissuta e attuata nel qui e ora di ogni decisione e azione. Sia essa umana o algoritmica.

Oggi che la decisione si automatizza in maniera algoritmica abbiamo bisogno di scrivere un nuovo capitolo di questa scienza del bene, di questo buon senso rigoroso. Il capitolo dell'etica che si fa computabile dalle macchine. Per fare questo il processo etico deve iniziare dai dati: dalla raccolta, dal loro essere processato e dal loro essere trasmesso. L'algor-etica, questo nuovo capitolo dell'etica, parte dai datasheets for datasets.

Però non si conclude con i dati. Perché l'etica vuole trasformare l'innovazione. Non si accontenta di guardare e di giudicare, vuole guidare l'azione. L'algor-etica come disciplina dello sviluppo di AI giuste e rispettose dell'umano vuole trasformare l'innovazione in sviluppo,

L'innovazione ha bisogno di essere governata perché sia fonte di sviluppo. Abbiamo bisogno di uno sviluppo che ponga l'umano al centro. Per far questo lo sviluppo dovrà essere:

Globale: di tutti gli uomini e di tutte le donne. Deve essere inclusivo (bambini, giovani, anziani, disabili, deboli e soggetti vulnerabili).
Integrale: di tutto l’uomo e di tutta la donna. Abbiamo creduto a chi ci diceva che la felicità era: avere di più, consumare di più, conquistare, sopraffare. Oggi siamo disillusi ma nel profondo non cessa la speranza per la felicità.
Plurale: attento ai contesti sociali, cioè rispettoso delle differenze, delle tradizioni e delle culture. Plurale come l’umanità.
Fecondo: pone le basi e si prende la responsabilità di agire pensando alle generazioni che verranno.
Gentile: mettere al centro l’umano significa che l’uomo è una parte di un tutto, la casa comune, che si fonda su delicati equilibri. Essere umano significa rispettare la bellezza e riconoscere il valore di tutto ciò che esiste.

Perché questo accada abbiamo bisogno di algor-etica per evitare le forme distopiche dell'algo-crazia.

[1] Questa storia è tratta da un testo che consiglio a chiunque voglia impegnarsi nel complesso ma affascinante mondo delle AI e delle inferenze: Jordan Ellenberg, I numeri non sbagliano mai: Il potere del pensiero matematico, Ponte alla grazie, 2015.

#algoretica #sviluppo #algoritmi #Machinelearning #Medicina #Digitale #sicurezza #Etica

Paolo Benanti

AI e medicina: tutto da rifare?

Post recenti