Overfitting

Situazione in cui un algoritmo:

ha imparato gli esempi di addestramento così bene che diventa cieco di fronte a ogni nuovo elemento. (…) L’overfitting nasce quando il sistema costruisce la propria immagine rigida (…) degli oggetti, perdendo la capacità di catturare la varietà empirica del mondo. Il sistema è eccessivamente adattato agli esempi che conosce. Ad esempio, ha imparato così bene a interagire con gli utenti destri con cui è stato addestrato che non riconosce un mancino come possibile utente. In termini tecnici, il sistema non riesce a distinguere efficacemente le informazioni rilevanti (un segnale) dal irrilevante (rumore). In termini sociologici, l’esperienza del passato rischia di minare l’apertura al futuro.

In condizioni di elevata complessità e alta incertezza, il rischio di overfitting aumenta perché la componente di rumore tende ad aumentare più della componente di segnale: il futuro tende a diventare sempre più diverso dal passato. Ci sono più elementi del passato che dovrebbero essere trascurati per prevedere efficacemente il futuro, altrimenti le previsioni del sistema riproducono solo il passato e le sue idiosincrasie. Il problema è determinare quali elementi ignorare, cioè dimenticare efficacemente, (…) [ma] decidere di dimenticare è sempre una questione delicata. L’overfitting è un rischio per tutti i sistemi di apprendimento, soprattutto quando l’apprendimento viene svolto troppo a lungo o gli esempi di formazione sono rari (sono osservati pochi elementi e troppo dettagli); tuttavia, è particolarmente rischioso avere a che fare con i big data. In dataset molto grandi, spesso i dati sono ad alta dimensione e molti elementi sono nuovi. Gli elementi possono essere immagini, cifre scritte a mano o conversazioni informali che coinvolgono un gran numero di aspetti, molti dei quali sono idiosincratici e ogni volta diversi. La diversità è così alta che, anche con molti dati disponibili, il numero di esempi è ancora insufficiente per le dimensioni coinvolte. In pratica è come se gli allenamenti fossero sempre troppo lunghi e il campione sempre troppo piccolo. Imparare questi dati passati non è sufficiente per prevedere il futuro che ancora non esiste. (Elena Esposito, “Artificial Communication. How Algorithms Produce Social Intelligence”, MIT Press– rilasciato inCreative Commons, CC-BY-NC-ND)