Esposito paragona statistica “classica” e apprendimento macchinico:
La chiave dell’intelligenza degli algoritmi e di tutto ciò che possono fare, comprese le previsioni, sono le tecniche che consentono ai sistemi di apprendimento automatico di sviluppare autonomamente la capacità di elaborare dati e produrre le proprie informazioni. Per fare ciò, gli algoritmi hanno bisogno di esempi di compiti da svolgere e il web ne offre molti. Se un programma software è in grado di apprendere, questi esempi possono essere utilizzati per addestrare algoritmi in modo sempre più accurato e differenziato. La diversità dei contesti sul web diventa la risorsa per l’apprendimento e per aumentare le prestazioni degli algoritmi. In che modo le macchine imparano dagli esempi? Per sviluppare questa capacità, i programmatori in machine learning utilizzano gli strumenti della statistica. Infatti, statistica e calcolo delle probabilità hanno affrontato per secoli il problema dell’apprendimento dai dati e prodotto una serie di strumenti computazionali per estrarre informazioni: regressione, classificazione, correlazione e così via. Ora l’apprendimento automatico li eredita e li adotta, ma utilizza i dati in un modo diverso. L’obiettivo della statistica è gestire l’incertezza attuale. Affronta la conoscenza (o la mancanza di conoscenza) del presente, mantenendo e confermando l’insuperabile barriera tra il momento presente e il futuro aperto. Il machine learning, invece, si rivolge al futuro e ha l’obiettivo di prevederlo. La differenza tra i due approcci produce una curiosa relazione di vicinanza e opposizione tra il machine learning e la tradizione della statistica, due culture formalmente quasi identiche che stanno progressivamente divergendo. Anche se utilizzano gli stessi strumenti, l’atteggiamento dei programmatori di machine learning è molto diverso da quello degli statistici (…) La statistica vuole contribuire alla conoscenza del mondo attivando una procedura che corrisponda al metodo classico galileiano: inserire nel modello i dati passati e poi utilizzarlo per prevedere i dati futuri, verificando così l’accuratezza del modello ed eventualmente correggendolo. L’obiettivo è la spiegazione: quando si fanno statistiche, si vuole dedurre il processo mediante il quale sono stati generati i dati. Per il machine learning, invece, lo scopo non è quello di spiegare i fenomeni elaborando un modello. In molti casi non si sa nemmeno se può esistere un modello intelligibile e la macchina può funzionare senza di esso. L’obiettivo dell’elaborazione algoritmica non è la verità ma l’accuratezza predittiva. Nel machine learning si parte dal presupposto di avere a che fare con modelli “complessi, misteriosi e, almeno, in parte inconoscibili”. Non vuoi capirli ma sapere come sarà il futuro rispetto ad alcune variabili. L’apprendimento automatico affronta il futuro e cerca di prevederlo con la stessa precisione possibile, indipendentemente dalla nostra conoscenza del mondo. Come possiamo leggere in un dibattito sul web, “le statistiche enfatizzano l’inferenza, mentre l’apprendimento automatico enfatizza la previsione“. Come conseguenza dei loro diversi atteggiamenti, le statistiche e l’apprendimento automatico producono forme di previsione fondamentalmente diverse. La statistica utilizza campioni basati su una quantità limitata di dati sperimentali appositamente preparati e selezionati per affrontare l’universo statistico. La statistica produce risultati sulla media degli elementi o dei soggetti coinvolti, cioè risultati che non corrispondono a nulla di specifico ea nessuno in particolare (nessuno ha 1,4 figli); tuttavia, questi risultati accrescono le nostre conoscenze generali. Le procedure algoritmiche, invece, utilizzano tutti i dati osservazionali disponibili e lavorano con insiemi di dati molto grandi, ma non producono risultati generali. Indicano cosa ci si può aspettare per un determinato soggetto in un dato momento sulla base delle correlazioni trovate nei dati.
Questa caratteristica delle procedure algoritmiche è simile all’antica divinazione, che anch’essa non rispondeva a un interesse astratto per la spiegazione ma a domande molto pratiche di un individuo specifico: come dovrei comportarmi io (un particolare individuo) oggi per trovarmi nella condizione più favorevole domani? Dove dovrebbe essere fondata la nuova città? Qual è il momento migliore per iniziare una battaglia o per seminare il grano? Il mio matrimonio avrà successo? La risposta divinatoria ha prodotto previsioni puntuali e individuali. Allo stesso modo una previsione algoritmica è specifica per il caso previsto. “Mentre le previsioni stimano il numero totale di coni gelato da acquistare il mese prossimo in Nebraska, PA [analisi predittiva] ti dice quali individui del Nebraska hanno maggiori probabilità di essere visti con un cono in mano”. Questa è la principale differenza tra la tradizione della statistica e i nuovi sviluppi dell’apprendimento automatico. Le tecniche digitali abbandonano l’idea statistica di media, in cui tutti gli elementi di una popolazione rappresentano repliche più o meno imperfette del valore medio. L’approccio dei big data pretende di essere più realistico perché rifiuta questa astrazione e pretende di elaborare singoli elementi della popolazione con tutte le loro idiosincrasie e incommensurabilità. La nuova frontiera della personalizzazione risiederà nel passaggio dalla ricerca degli universali alla comprensione della variabilità. (…) La società si calcola senza categorizzare gli individui, ma considerando la specificità di ognuno. I calcoli partono dalle attività delle persone e non cercano di dedurre caratteristiche applicabili a fenomeni più ampi. (…) Gli algoritmi dovrebbero essere in grado di prevedere la singolarità dei soggetti perché non dipendono da ciò che le persone pensano e vogliono, né da ciò che dicono di volere. Gli algoritmi basano i loro calcoli su ciò che le persone fanno effettivamente, spesso senza dirlo o addirittura senza saperlo. Ciò che l’algoritmo tratta come prospettiva del singolo individuo deriva dalle “impronte” digitali delle attività delle persone: codici postali, rapporti di credito, precedenti di guida, modelli linguistici, amicizie e relazioni e molti altri elementi che vengono confrontati con dati simili di altri individui.
Ma anche se gli algoritmi non dipendono da una prospettiva specifica, le loro indicazioni personalizzate non possono essere estese ad altri casi. Si applicano solo al set di dati disponibile (con i suoi pregiudizi impliciti), all’individuo di destinazione e al momento particolare. Che i risultati siano locali, specifici e provvisori, tuttavia, dovrebbe essere il loro punto di forza. (…) Gli algoritmi di apprendimento sono estremamente efficaci e possono raggiungere risultati impressionanti, ma solo riferiti al contesto specifico in cui sono stati formati. Come ben sanno i programmatori di software, le macchine addestrate possono essere “squisitamente adatte al loro ambiente e mal adattate a qualsiasi altro”. (…) Se sono necessari risultati generali, si deve ricostruire il gruppo induttivamente, analizzando molti contesti diversi e aggregandoli a posteriori — una procedura che è esattamente l’opposto di quella della scienza statistica classica. (…) Secondo i criteri della statistica e della scienza moderna, l’approccio del machine learning presenta alcune responsabilità fondamentali. Come le tecniche divinatorie, le procedure algoritmiche sono contestuali, individuali, concrete e sostanzialmente oscure. Questi stessi aspetti, tuttavia, sono alla base della loro efficacia predittiva. Proprio perché affrontano casi individuali e contesti specifici, ci si aspetta che gli algoritmi prevedano il futuro. (…) Nel machine learning, la capacità predittiva degli algoritmi dipende dagli stessi fattori che rendono le loro procedure spesso incomprensibili alla mente umana. Gli algoritmi di apprendimento automatico sono in grado di identificare modelli nei dati che non possono essere afferrati dal ragionamento perché non sono basati sul significato. Per lo stesso motivo, non possono essere catturati da procedure statistiche standard che dipendono da modelli e campioni di dati selezionati artificialmente per qualche motivo. Questi modelli, tuttavia, dovrebbero rivelare la struttura del futuro indipendentemente dalla conoscenza e dalle intenzioni dei soggetti. Gli algoritmi dovrebbero trovare modelli nella massa di dati di osservazione non selezionati, indipendentemente da un modello. (…) Le previsioni sono individuali e contestuali e si riferiscono solo all’elemento specifico a cui si riferiscono. Gli algoritmi utilizzati nello shopping predittivo, ad esempio, non rivelano come saranno le tendenze di acquisto dei consumatori nella prossima stagione o quali prodotti avranno una quota di mercato aumentata o diminuita. Al contrario, gli algoritmi anticipano e suggeriscono quali prodotti specifici un singolo consumatore sarà disposto ad acquistare, anche prima che l’individuo li scelga, e possibilmente prima che qualcuno si renda conto di un’esigenza. (…) Nonostante i loro limiti, quindi, le previsioni algoritmiche dovrebbero essere sempre efficaci. Anche quando le loro anticipazioni non si realizzano, gli algoritmi dovrebbero offrire le migliori previsioni possibili dati i dati disponibili, e anche il fallimento della previsione, quando accade, dovrebbe contribuire all’apprendimento e al miglioramento delle prestazioni future. (…) [C’è però un] lato oscuro della performatività della predizione, che riproduce una nota circolarità delle procedure divinatorie. (…) Nel mondo antico la circolarità della predizione era considerata la conferma dell’esistenza di un ordine cosmico superiore e la negazione del caos. Nelle culture moderne che si riferiscono a un futuro aperto, invece, questa circolarità si traduce in circuiti di feedback e una grave incapacità di apprendere. Gli algoritmi vedono la realtà che risulta dal loro intervento e non imparano da ciò che non possono vedere perché è stata cancellata dalle conseguenze del loro lavoro. L’uso di algoritmi produce una cecità di secondo ordine. (..) ad esempio, se le persone profilate algoritmicamente rispondono meno di altre ai cambiamenti nelle politiche di polizia, concentrare le misure di prevenzione della criminalità sulle persone profilate può essere controproducente perché le persone profilate spesso hanno poca scelta e commettono comunque crimini. (Elena Esposito, “Artificial Communication. How Algorithms Produce Social Intelligence”, MIT Press – rilasciato in Creative Commons, CC-BY-NC-ND)