La tesi di fondo dello studio risiede nell’analisi di come i Large Language Models (LLMs) operazionalizzano il concetto di giudizio—in particolare per quanto riguarda l’affidabilità e il bias delle fonti—e di come i loro meccanismi interni divergano significativamente dalle euristiche umane e dai giudizi degli esperti, nonostante un apparente allineamento degli output.
La conclusione fondamentale è che la delega del giudizio a questi sistemi rischia di trasformare il processo valutativo, sostituendo il ragionamento normativo e contestuale con l’approssimazione statistica basata su pattern superficiali e associazioni lessicali.
Di seguito sono riportati i concetti chiave che supportano e definiscono questa tesi:
1. Epistemia: L’Illusione della Conoscenza
Il concetto centrale introdotto dagli autori per descrivere questa dinamica è l’epistemia.
- L’epistemia è definita come l’illusione della conoscenza che emerge quando la plausibilità superficiale sostituisce la verifica.
- Questa condizione si verifica quando l’aspetto di un giudizio coerente e autorevole deriva unicamente da pattern statistici appresi, anziché da un ragionamento basato sull’evidenza.
- Delegare il giudizio agli LLM suggerisce un passaggio dal ragionamento normativo verso l’approssimazione basata su pattern.
2. Divergenza nei Meccanismi Valutativi (Heuristics)
Nonostante i modelli LLM spesso raggiungano un elevato accordo con le classificazioni degli esperti (ad esempio, NewsGuard e Media Bias/Fact Check), specialmente nell’identificare le fonti inaffidabili, questa convergenza è solo superficiale. La somiglianza riguarda i risultati, non il processo.
- Approssimazione Statistica: Gli LLM fanno affidamento su associazioni lessicali e priorità statistiche acquisite durante l’addestramento, piuttosto che sul ragionamento contestuale o sui criteri normativi espliciti. Ad esempio, l’analisi delle parole chiave mostra che le classificazioni degli LLM sono associate a un nucleo comune di marcatori linguistici.
- Sostituzione del Ragionamento Normativo: Quando il giudizio viene delegato, il ragionamento normativo (l’applicazione di standard di qualità espliciti e ragionamento contestuale) viene sostituito da un’approssimazione basata su pattern. Per gli LLM, l’accuratezza (un criterio chiave) viene derivata da regolarità statistiche piuttosto che dalla comprensione del contenuto e dal ragionamento pragmatico, come avviene negli esseri umani.
3. Asimmetrie Sistematiche
L’affidamento sugli schemi statistici produce effetti sistematici e non uniformi:
- Asimmetria Politica: Le testate giornalistiche di destra (Right-leaning) tendono ad essere sistematicamente classificate come inaffidabili più spesso rispetto a quelle di centro o di sinistra, la cui affidabilità viene spesso sovrastimata.
- Origine dell’Asimmetria: Questa asimmetria non implica una preferenza partigiana esplicita degli LLM, ma riflette probabili correlazioni presenti nei dati di addestramento (ad esempio, la co-occorrenza di retorica estremista e disinformazione).
- Asimmetria Lessicale: I termini con connotazione di destra sono più prevalenti nelle descrizioni delle fonti inaffidabili, mentre i termini neutri o di sinistra compaiono più spesso in associazione con i domini affidabili.
4. Riproduzione del Bias di Scetticismo
L’integrazione degli esperimenti con gli LLM in un workflow agentico strutturato e un esperimento umano controllato ha rivelato che gli LLM riproducono alcune regolarità comportamentali umane:
- Bias di Scetticismo: I modelli (in particolare l’agente Gemini) mostrano un pattern che ricorda il “bias di scetticismo” (skepticism bias) osservato negli esseri umani, ovvero una sovra-reiezione di informazioni accurate. Circa il 77% delle fonti classificate come affidabili dagli esseri umani sono state ritenute inaffidabili dall’LLM.
5. Priorità Divergenti dei Criteri di Valutazione
Analizzando il processo di valutazione strutturato, si nota che LLM e umani danno priorità a criteri diversi, nonostante una convergenza iniziale:
- Criterio Condiviso: Entrambi i gruppi (LLM e partecipanti umani non esperti) selezionano e classificano l’“Accuratezza Fattuale” (Factual Accuracy) come il criterio più importante.
- Priorità degli LLM: Gli LLM attribuiscono alta importanza alla “Trasparenza della Proprietà” (Ownership Transparency), un criterio raramente selezionato dagli umani non esperti. Questa enfasi si allinea con i protocolli di fact-checking professionali.
- Priorità Umane: I partecipanti umani tendono a dare maggiore peso a indizi retorici e stilistici, come la “Manipolazione del Linguaggio” (Language Manipulation) e la “Professionalità della Scrittura” (Writing Professionalism). Queste preferenze sono coerenti con euristiche cognitive umane, come la fluency euristica, dove la chiarezza e la neutralità emotiva aumentano la percezione di verità.
In sintesi, la tesi principale è che la delega della valutazione agli LLM introduce un cambiamento strutturale nel modo in cui il giudizio viene operazionalizzato, privilegiando la plausibilità statistica—l’epistemia—rispetto al ragionamento deliberativo basato sul contesto.