Competenze a basso costo: la svolta linguistica e le sue conseguenze

Cristianini ricostruisce:

l’articolo (…) «Migliorare la comprensione del linguaggio tramite preaddestramento generativo» (…) è stato pubblicato nel 2018 da OpenAI. In esso i ricercatori annunciavano di avere trovato il modo di sfruttare un tipo di dati abbondanti ed economici per facilitare l’apprendimento di compiti «linguistici» [complessi] (…). In altre parole, avevano risolto il problema di fornire a un agente delle competenze linguistiche generali, a basso costo, prima di insegnargli dei compiti specializzati. Era una vera svolta nel modo di realizzare intelligenza artificiale (…) ci sono tre livelli: l’agente che incontriamo nel mondo (per esempio, ChatGPT), il modello interno che questo usa per prendere decisioni (per esempio, GPT-3) e l’algoritmo che crea tale modello partendo dai dati (per esempio, il Transformer). Un modello del mondo ci deve dire quali situazioni sono probabili e quali improbabili (o impossibili): per esempio nel mio modello del mondo fisico non mi aspetto che gli oggetti cadano verso l’alto o che gli alberi parlino. Mentre è possibile stimare la probabilità degli eventi ricorrenti contandone la frequenza in passato (pensiamo alla pioggia in novembre), questo non si può fare con eventi mai verificatisi prima (…) Avere un modello del mondo che consente di interagire con esso, calcolando la probabilità di diversi eventi, è una forma di comprensione del mondo. In realtà non si può modellare tutto il mondo, ma solo qualche aspetto di esso, quelli che ci servono. L’intera conoscenza del mondo disponibile a un agente si trova nel suo modello del mondo, che alla fine ne è solo un’approssimazione utile a svolgere la missione data. Alcuni agenti interagiscono con l’ambiente interamente attraverso il linguaggio (ovvero, percepiscono espressioni linguistiche ed eseguono atti linguistici) e, in questo caso, invece di un modello del mondo, usano un modello del linguaggio: questo deve dire quali sequenze di parole sono plausibili, o hanno senso. È qui la svolta degli ultimi anni: abbiamo trovato un modo nuovo e più potente di creare modelli del linguaggio che gli agenti intelligenti possono usare per comprendere frasi mai scritte o pronunciate prima. Con essi, si possono predire le parti mancanti di una frase incompleta, anche se interamente nuova, e svolgere molti altri compiti importanti. L’intelligenza di un agente ha molto a che fare con la sua capacità di creare modelli del mondo da usare per informare il proprio comportamento. (…) Questo notevole risultato era stato possibile grazie a due ingredienti: una formidabile collezione di milioni di immagini suddivise in migliaia di categorie diverse, chiamata ImageNet e realizzata pochi anni prima dalla brillante scienziata di Stanford Fei-Fei Li, e l’uso di un tipo di processore parallelo chiamato GPU (Graphic Processing Unit) per accelerare l’addestramento delle reti neurali. (…) i ricercatori di OpenAI riportavano come avevano insegnato una serie di compiti diversi a un agente intelligente senza dover ripartire da zero ogni volta (…) dividendo l’addestramento in due fasi: la prima (che chiamarono preaddestramento) creava un generico «modello di linguaggio», partendo da grandi quantità di testo grezzo, e quindi economico, mentre la seconda (che chiamarono raffinamento, o messa a punto) insegnava a esso i compiti specifici, usando dati curati a mano e quindi più costosi. La novità era nella prima fase: per completarla avevano modificato il Transformer, algoritmo in grado di imparare dai propri errori, per insegnargli a indovinare le parole mancanti in un testo sulla base del contesto. Poi avevano preso un enorme corpus, formato da migliaia di libri, e avevano cancellato delle parole a caso, per dargli modo di esercitarsi. Il risultato era stato un modello statistico in grado di sostenere il «cloze test» descritto prima, e di migliorare il proprio punteggio con la pratica e con più dati (N. Cristianini,”Machina Sapiens. L’algoritmo che ci ha rubato il segreto della conoscenza”)