fbpx

Il valore dei dati nell’intelligenza artificiale

da | 1 Feb 2021 | Blog

Partiamo da una considerazione: le applicazioni software moderne estraggono sempre più dati da fonti remote e, a loro volta, ne producono di nuovi. La persistenza non è più un problema: il Cloud ci offre uno spazio pressoché infinito a un costo accessibile.

Le applicazioni software nascono per risolvere un problema reale, ad esempio migliorare un ciclo produttivo. Più dati abbiamo meglio possiamo analizzarli per scoprire strutture (pattern) nascoste che ci conducono sulla strada giusta. Il problema è che questi pattern sono troppo complessi da trovare per l’occhio umano. Questo è il Machine Learning: uno strumento per trovare pattern e generare codice che ci aiuti a riconoscerli in nuovi dati, magari che stanno arrivando in tempo reale dalla nostra applicazione.

Ho scoperto il mondo dell’analisi dei dati lungo il mio percorso di studio, che mi ha portato a partecipare in gruppi di ricerca presso il CERN di Ginevra a fine anni 90 alla ricerca del neutrino tau. Quell’esperienza meravigliosa ha segnato definitivamente la mia concezione sulla natura dei dati e come vanno, per così dire, coltivati.

Il 2020 ci ha dimostrato come una massa enorme di dati riesca solo a generare confusione, lasciando spazio a qualsiasi tipo di interpretazione. Mi riferisco ovviamente al COVID-19: la mancanza di uniformità nella fase di raccolta complica non solo ogni possibile analisi ma anche una minima comprensione. Tuttavia questo comunque non ha limitato il numero di articoli caotici su giornali e siti web mondiali.

I dati vanno quindi raccolti seguendo un criterio certo: questo vuol dire assumersi anche la responsabilità di scartarne una parte. Nel caso di un sensore rotto può essere una decisione semplice da prendere, ma laddove subentra il fattore umano/politico il discorso cambia completamente.

Uno dei primi campi di studio della Statistica, stiamo parlando del diciottesimo secolo, è stato il rapporto tra numero di maschi e numero di femmine alla nascita. Questo numero dovrebbe oscillare tra 1.03 e 1.06 maschi per ogni femmina; ogni volta che in qualche nazione questo numero è aumentato significativamente a vantaggio dei maschi si è poi scoperto un gravissimo problema sociale / politico.

Una volta deciso quale sia il campione “buono” di dati parte la sua analisi. E anche qui possono nascondersi sorprese. Si arriva a un risultato e magari quel risultato è sorprendente, se non rivoluzionario. Nel caso di un esperimento scientifico magari si scopre qualcosa di nuovo o si osserva ciò che era stato previsto dalla teoria. Il fattore umano anche qui è decisivo. Sale l’entusiasmo, si cerca di contenerlo ripetendo le analisi. I risultati vengono confermati e allora si scrivono articoli, si concedono interviste. Poi, dopo un po’ di tempo, si scopre un piccolo effetto sistematico in una delle componenti dell’apparato sperimentale e tutti i risultati trovati svaniscono nel nulla.

Ricordo ad esempio quando fu annunciato da tutti i giornali del mondo (ad esempio qui) che i neutrini viaggiavano a una velocità maggiore di quella della luce, in barba a quanto predetto da Einstein. Furono successivamente scoperte due anomalie: una nella calibrazione dell’orologio di riferimento per calcolare il tempo di viaggio della particella, l’altra, banalmente, nello stato del cavo che connette il sistema GPS a una scheda dei computer dell’apparato sperimentale. Potete leggere le conseguenze di questa amara scoperta qui.

Cosa succede quando manca un qualsiasi fattore critico nell’analisi dei risultati trovati da un algoritmo di Machine Learning? Quando non si prevede nessun meccanismo di controllo nell’ingranaggio perfetto? Nella letteratura fantascientifica si è coniato il termine “ghost in the machine” per riferirsi al processo dell’intelligenza artificiale che in maniera inaspettata evolve oltre i suoi scopi originali.

Non voglio evocare scenari alla Westworld, anche perché la realtà quotidiana è piena di esempi imbarazzanti sul malfunzionamento di assistenti di ogni marca e prezzo. Ciò che deve farci riflettere, invece, è che gli effetti sistematici, i “bias” negli scenari di network “social”, possono produrre effetti imprevedibili e disastrosi come raccontato anche in questo caso dalle cronache dei giornali.

Voglio tenere un tono leggero e segnalarvi un sito web dove si raccolgono bizzarre correlazioni del tutto casuali. Ad esempio, il numero di divorzi nel Maine col consumo pro capite di margarina:

Oppure il numero dottorati di ricerca in matematica con la quantità di uranio conservato presso gli impianti nucleari negli USA:

Uno dei capisaldi della statistica è che la correlazione non implica la causalità. A sua volta, una forte evidenza nei dati non implica necessariamente che quel segnale sia legato all’effetto che stiamo ricercando. Tempo fa, l’esercito degli Stati Uniti stava testando un algoritmo che cercasse la presenza di missili in un campione di foto. I risultati dei test su dei campioni di immagini scattate in Germania furono ottimi. Peccato che l’algoritmo in realtà stesse trovando alberi con qualche dettaglio di scarso rilievo di un missile. Lo stesso algoritmo non trovava nulla in immagini con missili scattate nel deserto oppure dava un falso positivo con una bicicletta in una foresta. Mi sa che non c’era ancora TensorFlow!

Si tratta solo di folklore? Cosa può succedere se un algoritmo vaglia un certo numero di candidati a un’assunzione analizzando il contenuto dei loro curriculum vitae e confrontandolo coi dati di chi ha lavorato in quell’azienda negli ultimi 20 anni? Questo è uno scenario di pura fantasia perché non voglio citare articoli senza fonti sicure. Basta una semplice ricerca per trovare decine di fonti sul bias razziale negli algoritmi di Machine Learning.

Mi rendo conto di aver insinuato molti dubbi ma ciò è solo positivo. Per citare una storica battuta:

Domanda a Radio Yerevan: “E’ corretto che Grigori Grigorievich Grigoriev ha vinto una macchina di lusso durante la All-Union Championship a Mosca?”

Risposta di Radio Yerevan: “In principio, si. Ma anzitutto, non era Grigori Grigorievich Grigoriev, bensì Vassili Vassilievich Vassiliev; in secondo luogo, non era alla All-Union Championship a Mosca, ma il Festival delle aziende agricole a Smolensk; terzo, non era un’auto ma una bicicletta; e quarto non l’aveva vinta ma gliel’avevano rubata.

Sono entrato in Ellycode con la speranza di andare oltre il sensazionalismo che c’è dietro l’AI e il Machine Learning. Con la consapevolezza che c’è tanto da fare e studiare ancora, ma che l’opportunità è troppo importante per lasciarsela sfuggire.

Scritto da

Scritto da

Salvatore Sorrentino