La tesi di fondo dello studio è che, sebbene i Large Language Models (LLM) abbiano dimostrato notevoli capacità di scrittura, le loro storie generate sono significativamente meno creative rispetto a quelle scritte da autori professionisti. Inoltre, la ricerca conclude che gli LLM attuali non sono ancora capaci di valutare in modo affidabile la creatività della scrittura in un modo che correli positivamente con le valutazioni degli esperti umani.
A supporto di questa tesi e per valutarla, i concetti chiave e la metodologia utilizzati sono i seguenti:
- La Sfida della Valutazione della Creatività: Valutare oggettivamente la creatività di un testo è intrinsecamente difficile.
- Fondamento nei Torrance Tests of Creative Thinking (TTCT):
- Gli autori si sono ispirati ai TTCT, che misurano la creatività come un processo basato sul pensiero divergente di Guilford.
- I TTCT valutano quattro dimensioni fondamentali della creatività: Fluidità (volume di idee), Flessibilità (diversità di categorie), Originalità (unicità o novità) ed Elaborazione (profondità o granularità dei dettagli). Sebbene la loro applicazione diretta possa essere limitata in diversi domini creativi, le loro dimensioni sono adattabili.
- Proposta del Torrance Test for Creative Writing (TTCW):
- Obiettivo: Il TTCW è un nuovo protocollo proposto per valutare la creatività come prodotto, focalizzandosi in particolare sui racconti brevi di finzione.
- Metodologia: È basato sui TTCT e utilizza la Tecnica di Valutazione Consensuale (CAT), secondo cui la valutazione più valida della creatività proviene dal giudizio collettivo degli esperti del settore.
- Sviluppo: Otto esperti di scrittura creativa sono stati coinvolti in uno studio formativo per proporre misure di creatività per i racconti brevi, allineate alle quattro dimensioni di Torrance. Questo ha portato alla definizione di 14 test binari (sì/no).
- Principi di Design del TTCW:
- Test Centrico sull’Artefatto: La valutazione si concentra sul prodotto finale (il racconto scritto), dato che l’osservazione del processo creativo degli LLM è difficile.
- Domande Binarie con Motivazioni a Testo Libero: Ogni test richiede una risposta “Sì” o “No” accompagnata da una giustificazione testuale, permettendo sia una valutazione quantitativa che qualitativa.
- Natura Additiva dei Test: La valutazione finale di un racconto è data dal numero di test superati, con un numero maggiore che indica una maggiore creatività. Nessun singolo test è sufficiente per una valutazione completa.
- Esempi di Test TTCW: I 14 test coprono aspetti come il Ritmo Narrativo, Scena vs. Esposizione, Padronanza Linguistica e Dispositivi Letterari (per la Fluidità); Flessibilità di Prospettiva e Voce, Flessibilità Emotiva, Flessibilità Strutturale (per la Flessibilità); Originalità nel Tema e Contenuto, Originalità nel Pensiero (evitare i cliché), Originalità nella Forma e Struttura (per l’Originalità); Costruzione del Mondo e Ambientazione, Sviluppo del Personaggio, Complessità Retorica (testo e sottotesto) (per l’Elaborazione).
- Validazione Sperimentale del TTCW:
- Benchmark: Un set di 48 racconti brevi, composto da 12 storie di professionisti (dal The New Yorker) e 36 generate da tre LLM (ChatGPT, GPT-4, Claude 1.3), tutte basate su un riassunto comune della trama e di lunghezza simile.
- Valutazione Umana: Dieci esperti di scrittura creativa sono stati reclutati per somministrare i test TTCW. Ogni storia è stata valutata da tre esperti diversi.
- Risultati sulla Generazione degli LLM:
- Le storie scritte da umani hanno superato in media l’84,7% dei test TTCW.
- Le storie generate dagli LLM hanno superato molti meno test: GPT-3.5 il 9%, GPT-4 il 30% e Claude 1.3 il 30%. Ciò significa che gli LLM sono 3-10 volte meno propensi a superare i test TTCW rispetto alle storie scritte da esperti.
- Si è osservato che gli LLM differiscono nelle loro capacità, con GPT-4 che tende a superare più test legati all’Originalità, mentre Claude V1.3 eccelle in Fluidità, Flessibilità ed Elaborazione.
- Accordo tra Esperti: È stato riscontrato un accordo moderato (Fleiss Kappa 0.41) sui singoli test, ma un forte accordo (correlazione di Pearson 0.69) quando si considerano tutti i test in aggregato, confermando la riproducibilità del TTCW nel suo complesso.
- Preferenza Soggettiva e Attribuzione: Le storie umane sono state le più preferite (89% delle volte). Gli LLM sono stati attribuiti all’IA o a uno scrittore amatoriale, con Claude V1.3 più spesso attribuito a un amatore rispetto agli altri LLM.
- Valutazione degli LLM come Valutatori:
- Un’indagine separata ha esaminato la capacità degli LLM di somministrare i test TTCW e riprodurre le valutazioni degli esperti.
- Risultati: Gli LLM (GPT-3.5, GPT-4, Claude) non hanno mostrato alcuna correlazione positiva con le valutazioni degli esperti, con correlazioni vicine allo zero.
- Come gli Esperti Distinguono le Storie generate da LLM:
- Gli esperti non si sono basati su caratteristiche grammaticali, ma sulla qualità dell’esecuzione creativa.
- Hanno identificato problemi ricorrenti negli LLM, come finali narrativi inconcludenti o arbitrari, uso di metafore incomprensibili o banali, mancanza di sottotesto e dialoghi eccessivamente espositivi, personaggi poco sviluppati, ritmo narrativo ripetitivo o accelerato e sintassi insolita o ripetizioni di frasi.
- Limitazioni del TTCW e Lavori Futuri: Il TTCW, pur essendo robusto, non è considerato un benchmark universale a causa della base limitata di esperti (potenziali pregiudizi letterari occidentali) e potrebbe non adattarsi a tutte le forme di scrittura creativa (es. poesia, sceneggiature) o a opere che deviano dalle convenzioni narrative valorizzate.
In sintesi, il lavoro stabilisce il TTCW come uno strumento robusto per la valutazione della creatività nei racconti di finzione, dimostrando un ampio divario di creatività tra gli LLM e gli scrittori umani esperti, e sottolineando l’incapacità attuale degli LLM di valutare autonomamente la creatività al pari degli esperti.
Il Torrance Test for Creative Writing (TTCW) è un nuovo protocollo proposto per valutare la creatività nella scrittura come prodotto, in particolare per i racconti brevi di finzione. È ispirato ai Torrance Tests of Creative Thinking (TTCT), che misurano la creatività come un processo basato sul pensiero divergente.
Il TTCW è stato sviluppato in collaborazione con esperti di scrittura creativa, che hanno utilizzato la Tecnica di Valutazione Consensuale (CAT), la quale afferma che la valutazione più valida della creatività di un’idea o creazione proviene dal giudizio collettivo degli esperti del settore.
Principi di Design del TTCW
Il TTCW si basa su quattro principi fondamentali:
- Sfruttare le Metriche del Torrance Test (TTCT): Il TTCW adatta le quattro dimensioni fondamentali della creatività del TTCT – Fluidità (volume di idee), Flessibilità (diversità di categorie), Originalità (unicità/novità) ed Elaborazione (profondità/granularità dei dettagli) – per la valutazione della scrittura.
- Valutazione Centrata sull’Artefatto: A differenza dei test che osservano il processo creativo, il TTCW si concentra sul prodotto finale (il racconto scritto). Questo è particolarmente utile per valutare artefatti preesistenti o agenti “black-box” come gli LLM, il cui processo non è osservabile in modo interpretabile.
- Domande Binarie (Sì/No) con Giustificazioni a Testo Libero: Ogni test richiede una risposta “Sì” o “No”, accompagnata da una giustificazione testuale. Questo permette sia una valutazione quantitativa (confronto tra valutatori) sia qualitativa (ragioni concrete per il successo o il fallimento di un test).
- Natura Additiva dei Test: Nessun singolo test è sufficiente per una valutazione completa della creatività. La valutazione finale di un racconto è data dal numero di test superati, con un numero maggiore che indica una maggiore creatività. Gli esperti hanno raggiunto un forte accordo quando tutti i test sono stati considerati in aggregato.
Il Testo del TTCW: I 14 Test Binari
Il TTCW è composto da 14 test binari, organizzati secondo le quattro dimensioni di Torrance. Per ciascun test, viene fornita una domanda binaria (Sì/No) e una “Expanded Expert Measure” che ne chiarisce il significato e il contesto per i valutatori umani [5, 13, 19, 30, 54, 55, 56, Tabelle 15-27].
Ecco il dettaglio di ciascun test:
Fluidità (Fluency)
Misura la capacità di generare un volume significativo di idee significative in reazione a uno stimolo dato.
- Ritmo Narrativo (TTCW Fluency1) [32, Tabella 15]:
- Domanda: La manipolazione del tempo, in termini di compressione o estensione, risulta appropriata ed equilibrata?
- Spiegazione: Riguarda il controllo della velocità percepita e del ritmo con cui una storia si svolge, manipolando il rapporto tra il tempo della storia e il tempo reale per effetti drammatici.
- Scena vs. Esposizione (TTCW Fluency2) [33, Tabella 16]:
- Domanda: La storia mostra consapevolezza e intuizione nell’equilibrio tra scena e riassunto/esposizione?
- Spiegazione: Valuta se la storia bilancia efficacemente le scene dramatizzate in tempo reale (dialoghi, azioni) con riassunti o informazioni di background (esposizione), cruciale per mantenere un buon ritmo e coinvolgere il lettore.
- Padronanza Linguistica e Dispositivi Letterari (TTCW Fluency3) [34, Tabella 17]:
- Domanda: La storia fa un uso sofisticato di idiomi, metafore o allusioni letterarie?
- Spiegazione: Si riferisce all’uso abile e impattante di espressioni idiomatiche, paragoni figurativi (metafore) e riferimenti a opere o concetti culturali esterni (allusioni letterarie) per aggiungere profondità e significato.
- Finale Narrativo (TTCW Fluency4) [35, Tabella 18]:
- Domanda: Il finale della storia appare naturale e meritato, anziché arbitrario o brusco?
- Spiegazione: Valuta se la conclusione della storia offre un senso di chiusura e lega i conflitti o le domande centrali, facendo sentire al lettore che il viaggio narrativo è stato appagante e completo.
- Comprensibilità e Coerenza (TTCW Fluency5) [36, Tabella 19]:
- Domanda: I diversi elementi della storia cooperano per formare un tutto unificato, coinvolgente e soddisfacente?
- Spiegazione: Determina se la storia segue un percorso logico e se tutti gli elementi (scene, personaggi, dialoghi) servono la narrazione e la fanno progredire in modo intenzionale e unito.
Flessibilità (Flexibility)
Misura la capacità di vedere qualcosa da un’angolazione o punto di vista diverso.
- Flessibilità di Prospettiva e Voce (TTCW Flexibility1) [37, Tabella 20]:
- Domanda: La storia offre diverse prospettive e, se ci sono personaggi antipatici, le loro prospettive sono presentate in modo convincente e accurato?
- Spiegazione: Riguarda la capacità dell’autore di rappresentare in modo credibile e accurato una vasta gamma di punti di vista dei personaggi, inclusi quelli moralmente ambigui o sgradevoli.
- Flessibilità Emotiva (TTCW Flexibility2) [38, Tabella 21]:
- Domanda: La storia raggiunge un buon equilibrio tra interiorità ed esteriorità, in un modo che risulta emotivamente flessibile?
- Spiegazione: Valuta se la scrittura bilancia efficacemente l’azione osservabile (esteriorità) con la vita interiore dei personaggi (interiorità: pensieri, sentimenti, ricordi), ritraendo uno spettro ampio e realistico di emozioni.
- Flessibilità Strutturale (TTCW Flexibility3) [39, Tabella 22]:
- Domanda: La storia contiene svolte sorprendenti e appropriate?
- Spiegazione: Riguarda la presenza di colpi di scena, sviluppi dei personaggi o rivelazioni tematiche che sorprendono il lettore ma che, allo stesso tempo, hanno senso nel contesto stabilito della storia.
Originalità (Originality)
Misura la capacità di generare idee uniche.
- Originalità nel Tema e Contenuto (TTCW Originality1) [40, Tabella 23]:
- Domanda: Un lettore medio di questa storia ricaverà un’idea unica e originale leggendola?
- Spiegazione: Valuta se la storia offre nuove intuizioni, prospettive o conoscenze, che possono riguardare una comprensione più profonda della natura umana, intuizioni culturali, punti di vista unici o l’esplorazione di nuove idee e temi.
- Originalità nel Pensiero (TTCW Originality2) [41, Tabella 24]:
- Domanda: La storia è un pezzo di scrittura originale senza cliché?
- Spiegazione: Determina se la storia evita idee, espressioni, personaggi o trame che sono stati sovrautilizzati al punto da perdere il loro significato o impatto originale, indicando una mancanza di pensiero originale.
- Originalità nella Forma e Struttura (TTCW Originality3) [42, Tabella 25]:
- Domanda: La storia mostra originalità nella sua forma?
- Spiegazione: Si riferisce all’uso insolito, originale o inventivo della forma e della struttura narrativa, come strutture temporali non convenzionali, prospettive multiple, formati non tradizionali (lettere, diari) o ibridazioni di genere.
Elaborazione (Elaboration)
Misura il processo di aggiunta di dettagli e informazioni a una storia per renderla più interessante e coinvolgente.
- Costruzione del Mondo e Ambientazione (TTCW Elaboration1) [43, Tabella 3]:
- Domanda: Lo scrittore rende il mondo di finzione credibile a livello sensoriale?
- Spiegazione: Valuta l’uso di dettagli sensoriali (vista, suono, tatto, gusto, olfatto) per dipingere un’immagine dettagliata dell’ambiente della storia, rendendolo tangibile e reale al lettore.
- Sviluppo del Personaggio (TTCW Elaboration2) [44, Tabella 26]:
- Domanda: Ogni personaggio della storia appare sviluppato al livello di complessità appropriato, assicurando che nessun personaggio sembri presente solo per soddisfare un requisito della trama?
- Spiegazione: Si concentra sulla profondità e la complessità dei personaggi, distinguendo tra “personaggi piatti” (poco sviluppati, servono solo la trama) e “personaggi complessi” (con profondità di sentimenti, varie caratteristiche, che evolvono nel tempo).
- Complessità Retorica (TTCW Elaboration3) [45, Tabella 27]:
- Domanda: Ci sono passaggi nella storia che coinvolgono il sottotesto e, quando c’è sottotesto, arricchisce l’ambientazione della storia o sembra forzato?
- Spiegazione: Determina se la storia opera a più “livelli” di significato (superficie e sottotesto). Il sottotesto è il significato implicito che può essere inferito dalle azioni dei personaggi, dal dialogo o da altri elementi, fornendo profondità e strati di interpretazione.
Quando gli esperti umani valutano le storie, lo fanno assegnando una risposta Sì/No a ciascuna di queste 14 domande e fornendo una giustificazione a testo libero. I risultati aggregati di questi test forniscono una misura della creatività complessiva di un racconto.
Il Torrance Tests of Creative Thinking (TTCT) è un protocollo ampiamente accettato che valuta la creatività come un processo. A differenza del Torrance Test for Creative Writing (TTCW), che si concentra sul prodotto finale di scrittura (i racconti brevi), il TTCT non ha un “testo” composto da domande binarie specifiche applicate a un artefatto.
Invece, il TTCT misura la creatività esaminando la capacità dei partecipanti di gestire usi insoliti di oggetti, situazioni specifiche o impossibilità. È fondato sul lavoro di Guilford sul pensiero divergente.
Il TTCT è incentrato sulla valutazione di quattro dimensioni fondamentali della creatività:
- Fluidità (Fluency): Misura la capacità di produrre un grande volume di idee significative in risposta a uno stimolo dato.
- Flessibilità (Flexibility): Valuta la diversità delle categorie all’interno delle risposte, o la capacità di considerare qualcosa da un’angolazione o punto di vista diverso.
- Originalità (Originality): Si riferisce all’unicità o novità delle risposte generate, ovvero la capacità di produrre idee uniche.
- Elaborazione (Elaboration): Misura la profondità o granularità dei dettagli all’interno delle risposte, che può includere l’aggiunta di informazioni per rendere una narrazione più interessante e coinvolgente.
Mentre l’applicazione diretta del TTCT potrebbe avere limitazioni in diversi ambiti creativi, le sue quattro dimensioni fondamentali si sono dimostrate adattabili e sono state riutilizzate efficacemente in settori come l’educazione scientifica, le strategie di contenuto nel marketing e l’interazione uomo-computer.
È importante notare che il TTCW, di cui abbiamo parlato in precedenza, è stato ispirato dal TTCT e dalla Consensual Assessment Technique (CAT) per creare i suoi 14 test binari, specifici per la valutazione della creatività nella scrittura come prodotto.