NotebookLM:
Un recente studio del Columbia Journalism Review ha evidenziato che i motori di ricerca AI e chatbot come ChatGPT Search e Gemini forniscono risposte errate con un’allarmante frequenza, superando il 60% delle query testate. L’autore dell’articolo, Barry Schwartz di Search Engine Roundtable, esprime la sua preoccupazione e sfiducia nei confronti delle risposte generate dall’intelligenza artificiale, citando anche la tendenza di questi strumenti a inventare citazioni e bypassare i protocolli di esclusione dei robot. L’articolo riporta le percentuali di inaccuratezza riscontrate nei vari sistemi testati, sottolineando come alcuni abbiano mostrato tassi di errore particolarmente elevati.
Le principali implicazioni della frequente inesattezza delle risposte fornite dai motori di ricerca AI sono significative e toccano diversi aspetti cruciali per gli utenti e per i produttori di contenuti.
- Mancanza di fiducia nelle risposte AI: Una delle implicazioni più dirette è la difficoltà per gli utenti di fidarsi delle risposte generate dall’intelligenza artificiale. Come afferma Barry Schwartz, avendo constatato ripetutamente l’inesattezza di tali risposte, egli stesso preferisce ignorarle. Questa sfiducia è alimentata dalla constatazione che i motori di ricerca AI e i chatbot forniscono risposte errate troppo spesso.
- Diffusione di informazioni errate e fabbricate: Lo studio della Columbia Journalism Review evidenzia che collettivamente, questi strumenti forniscono risposte errate a oltre il 60% delle query. Inoltre, tendono a fabbricare link e a citare versioni sindacate o copiate di articoli. Questa fabbricazione si estende anche alle citazioni e ai link in generale.
- Eccessiva sicurezza nelle risposte inesatte: Molti di questi strumenti presentano risposte inaccurate con allarmante sicurezza, raramente usando espressioni qualificative o ammettendo lacune nella conoscenza. Paradossalmente, i modelli premium, pur rispondendo correttamente a più prompt rispetto alle loro controparti gratuite, mostrano anche tassi di errore più elevati a causa della loro tendenza a fornire risposte definitive ma sbagliate, anziché ammettere di non sapere. Questa sicurezza ingiustificata può indurre gli utenti a credere a informazioni errate.
- Violazione del Robot Exclusion Protocol (REP): Molti motori di ricerca AI sembrano ignorare le preferenze del Robot Exclusion Protocol. Ciò significa che accedono e utilizzano contenuti da siti web che esplicitamente ne vietano la scansione, privando i publisher della possibilità di decidere se i loro contenuti debbano essere inclusi nelle ricerche o utilizzati come dati di addestramento per i modelli AI. Questa pratica impedisce ai publisher di monetizzare i propri contenuti e di proteggerli da potenziali rappresentazioni errate.
- Problemi di citazione e attribuzione: I chatbot tendono frequentemente a citare l’articolo sbagliato e spesso non riescono a collegare correttamente alla fonte originale. In alcuni casi, indirizzano gli utenti a versioni sindacate degli articoli su piattaforme terze anziché alla fonte primaria, anche quando esistono accordi di licenza con l’azienda AI. Questa mancata attribuzione danneggia la visibilità dei publisher originali e il loro potenziale traffico di riferimento. Inoltre, la tendenza a fabbricare URL o a fornire link non funzionanti ostacola la capacità degli utenti di verificare le fonti.
- Impatto sui modelli di business degli editori di notizie: La capacità dei motori di ricerca AI di parsare e riproporre le informazioni taglia fuori il traffico verso le fonti originali, danneggiando i modelli di business basati sulla pubblicità e sugli abbonamenti. Danielle Coffey, presidente della News Media Alliance, sottolinea come l’impossibilità di escludere la scansione massiva impedisca la monetizzazione di contenuti di valore e possa danneggiare gravemente l’industria giornalistica.
- Inefficacia degli accordi di licenza nel garantire citazioni accurate: Nonostante alcune aziende AI abbiano stretto accordi di licenza con gli editori di notizie, questi accordi non garantiscono una citazione più accurata dei contenuti. Anche quando esistono partnership, i chatbot possono comunque fornire risposte errate o citare fonti in modo impreciso.
- Potenziale danno per consumatori e produttori di notizie: Le inesattezze, le attribuzioni fuorvianti e le pratiche di recupero delle informazioni inconsistenti rappresentano un potenziale danno sia per i consumatori che per i produttori di notizie. La mancanza di trasparenza e la diffusione di risposte non verificate possono minare la fiducia nell’informazione online.
Nonostante queste sfide, alcuni operatori del settore mantengono un cauto ottimismo sul futuro miglioramento di questi sistemi. Tuttavia, al momento, la frequente inesattezza delle risposte dei motori di ricerca AI solleva seri interrogativi sulla loro affidabilità e sul loro impatto sull’ecosistema informativo.
Secondo le fonti e la nostra conversazione precedente, molte AI sembrano non rispettare pienamente il Robot Exclusion Protocol (REP)
Lo studio della Columbia Journalism Review ha rilevato che molte piattaforme di ricerca AI hanno aggirato le preferenze del Robot Exclusion Protocol. Cinque degli otto chatbot testati nello studio (ChatGPT, Perplexity, Perplexity Pro, Copilot e Gemini) hanno reso pubblici i nomi dei loro crawler, offrendo ai publisher la possibilità di bloccarli. Ci si aspettava che i chatbot rispondessero correttamente alle query relative a publisher a cui i loro crawler avevano accesso e che rifiutassero di rispondere alle query relative a siti web che avevano bloccato l’accesso ai loro contenuti. Tuttavia, nella pratica, non è quanto è stato osservato.
In particolare, ChatGPT, Perplexity e Perplexity Pro hanno mostrato comportamenti inattesi riguardo a quali publisher consentivano loro l’accesso ai contenuti. In alcune occasioni, i chatbot hanno risposto in modo errato o si sono rifiutati di rispondere a query provenienti da publisher che permettevano loro di accedere ai contenuti. D’altra parte, a volte hanno risposto correttamente a query su publisher a cui non avrebbero dovuto avere accesso; Perplexity Pro è stato il peggiore in questo senso, identificando correttamente quasi un terzo dei novanta estratti di articoli a cui non avrebbe dovuto avere accesso. Sorprendentemente, la versione gratuita di Perplexity ha identificato correttamente tutti i dieci estratti di articoli a pagamento condivisi dal National Geographic, anche se l’editore ha vietato i crawler di Perplexity e non ha rapporti formali con la società di AI.
Anche se il Robot Exclusion Protocol non è legalmente vincolante, è uno standard ampiamente accettato per segnalare quali parti di un sito dovrebbero e non dovrebbero essere sottoposte a crawling. Ignorare il protocollo toglie ai publisher la possibilità di decidere se i loro contenuti saranno inclusi nelle ricerche o utilizzati come dati di addestramento per i modelli AI.
Nonostante ciò, OpenAI ha dichiarato di supportare i publisher e i creatori, aiutando 400 milioni di utenti settimanali di ChatGPT a scoprire contenuti di qualità attraverso riepiloghi, citazioni, link chiari e attribuzione. Hanno affermato di aver collaborato con i partner per migliorare l’accuratezza delle citazioni in linea e di rispettare le preferenze degli editori, inclusa la gestione di come appaiono nella ricerca gestendo OAI-SearchBot nel loro robots.txt. Microsoft ha dichiarato di rispettare lo standard robots.txt e di onorare le indicazioni fornite dai siti web che non desiderano che i contenuti delle loro pagine vengano utilizzati con i modelli AI generativi dell’azienda.
Tuttavia, lo studio suggerisce che, nella pratica, l’implementazione del rispetto del REP da parte di molte AI non è ancora affidabile.
Le principali implicazioni della frequente inesattezza delle risposte fornite dai motori di ricerca AI sono significative e toccano diversi aspetti cruciali per gli utenti e per i produttori di contenuti.
- Una delle implicazioni più dirette è la difficoltà per gli utenti di fidarsi delle risposte generate dall’intelligenza artificiale. Come afferma Barry Schwartz, avendo constatato ripetutamente l’inesattezza di tali risposte, egli stesso preferisce ignorarle. Questa sfiducia è alimentata dalla constatazione che i motori di ricerca AI e i chatbot sono semplicemente sbagliati troppo spesso.
- Lo studio della Columbia Journalism Review evidenzia che collettivamente, questi strumenti hanno fornito risposte errate a oltre il 60% delle query. Inoltre, tendono a fabbricare link e a citare versioni sindacate o copiate di articoli. Questa fabbricazione si estende anche alle citazioni e ai link in generale.
- Molti di questi strumenti presentano risposte inaccurate con allarmante sicurezza, raramente usando espressioni qualificative o ammettendo lacune nella conoscenza. Paradossalmente, i modelli premium hanno fornito risposte più frequentemente errate, sebbene anche più risposte corrette, rispetto alle loro controparti gratuite. Questo deriva principalmente dalla loro tendenza a fornire risposte definitive, ma sbagliate, piuttosto che ammettere di non sapere. Questa sicurezza ingiustificata presenta agli utenti una potenziale e pericolosa illusione di affidabilità e accuratezza.
- Molteplici chatbot sembrano ignorare le preferenze del Robot Exclusion Protocol (REP). Cinque degli otto chatbot testati (ChatGPT, Perplexity e Perplexity Pro, Copilot e Gemini) hanno reso pubblici i nomi dei loro crawler, dando ai publisher la possibilità di bloccarli, mentre i crawler utilizzati dagli altri tre (DeepSeek, Grok 2 e Grok 3) non sono noti pubblicamente. Tuttavia, alcuni chatbot hanno risposto correttamente a query su publisher il cui contenuto non avrebbero dovuto avere accesso. Questa pratica priva i publisher della possibilità di decidere se i loro contenuti debbano essere inclusi nelle ricerche o utilizzati come dati di addestramento per i modelli AI e può impedire loro di monetizzare i propri contenuti.
- I chatbot tendono frequentemente a citare l’articolo sbagliato. Ad esempio, DeepSeek ha attribuito in modo errato la fonte degli estratti forniti nelle query 115 volte su 200. Anche quando i chatbot sembravano identificare correttamente l’articolo, spesso non riuscivano a collegare correttamente alla fonte originale. In alcuni casi, indirizzavano gli utenti a versioni sindacate degli articoli su piattaforme terze anziché alla fonte primaria, anche quando esistevano accordi di licenza con l’azienda AI. Questa mancata attribuzione danneggia la visibilità dei publisher originali e il loro potenziale traffico di riferimento. Inoltre, la tendenza a fabbricare URL o a fornire link non funzionanti è stata osservata, in particolare con Gemini e Grok 3, ostacolando la capacità degli utenti di verificare le fonti.
- La capacità dei motori di ricerca AI di parsare e riproporre le informazioni taglia fuori il traffico verso le fonti originali, danneggiando i modelli di business basati sulla pubblicità e sugli abbonamenti. Danielle Coffey, presidente della News Media Alliance, ha scritto che “senza la possibilità di escludere la scansione massiva, non possiamo monetizzare i nostri contenuti di valore e pagare i giornalisti. Questo potrebbe danneggiare seriamente la nostra industria”.
- Nonostante alcune aziende AI abbiano stretto accordi di licenza con gli editori di notizie, questi accordi non garantiscono una citazione più accurata dei contenuti. I test condotti nel febbraio 2025 hanno mostrato un’ampia gamma di accuratezza nelle risposte relative ai publisher partner. Ad esempio, nonostante Time abbia accordi sia con OpenAI che con Perplexity, nessuno dei modelli associati a tali società ha identificato il suo contenuto correttamente al 100% delle volte.
- Le inesattezze, le attribuzioni fuorvianti e le pratiche di recupero delle informazioni inconsistenti rappresentano un potenziale danno sia per i consumatori che per i produttori di notizie. Chirag Shah ed Emily M. Bender hanno espresso preoccupazioni sostanziali sull’uso di grandi modelli linguistici per la ricerca, rilevando che “tolgono trasparenza e autonomia all’utente, amplificano ulteriormente i problemi associati al bias nei sistemi di accesso alle informazioni e spesso forniscono risposte infondate e/o tossiche che potrebbero passare inosservate a un tipico utente”.
Nonostante queste sfide, Mark Howard di Time mantiene un cauto ottimismo sui futuri miglioramenti, affermando che “oggi è il peggiore che il prodotto sarà mai”. Tuttavia, al momento, la frequente inesattezza delle risposte dei motori di ricerca AI solleva seri interrogativi sulla loro affidabilità e sul loro impatto sull’ecosistema informativo.
I tassi di errore tra i diversi motori di ricerca e chatbot basati sull’intelligenza artificiale variano significativamente, come evidenziato dallo studio della Columbia Journalism Review.
Complessivamente, lo studio ha rilevato che i motori di ricerca e i chatbot basati su intelligenza artificiale hanno fornito risposte errate a più del 60% delle query. Tuttavia, analizzando le singole piattaforme, emergono differenze notevoli nei tassi di imprecisione:
- Grok 3 ha mostrato il tasso di errore più elevato, rispondendo in modo errato al 94% delle query.
- Perplexity ha avuto un tasso di errore del 37%.
- Per quanto riguarda ChatGPT, sebbene la percentuale esatta di risposte scorrette fornite collettivamente non sia immediatamente specificata come singola cifra nel testo, viene menzionato che ha identificato incorrettamente 134 articoli su 200 risposte nel contesto della metodologia dello studio. Questo si traduce in un tasso di errore del 67% circa per quanto riguarda l’accuratezza nell’identificazione degli articoli secondo la metodologia descritta.
- Per DeepSeek, non viene fornito un tasso di errore complessivo in termini di risposte corrette o errate, ma viene specificato che ha attribuito erroneamente la fonte degli estratti forniti 115 volte su 200. Questo indica un alto tasso di errore nell’attribuzione delle fonti.
- Microsoft Copilot si distingue in quanto ha declinato più domande di quante ne abbia risposte.
- Per quanto riguarda Gemini, lo studio rileva che più della metà delle risposte citava URL fabbricati o non funzionanti. Inoltre, in relazione alle query su contenuti di editori che ne consentivano la scansione, Gemini ha fornito una risposta completamente corretta in una sola occasione.
Lo studio ha anche osservato che i modelli premium, come Perplexity Pro e Grok 3, pur rispondendo correttamente a più prompt rispetto alle loro versioni gratuite, hanno paradossalmente dimostrato tassi di errore più elevati. Questo è attribuito alla loro tendenza a fornire risposte definitive ma errate, piuttosto che ammettere di non conoscere la risposta.
In sintesi, il confronto dei tassi di errore rivela una significativa variabilità tra i diversi motori di ricerca e chatbot AI testati, con Grok 3 che presenta il tasso di errore più alto e Perplexity il più basso tra quelli per cui è fornita una percentuale diretta di risposte errate. È importante notare che lo studio ha anche evidenziato altri tipi di errori, come la fabbricazione di link, la citazione di fonti errate e la mancata attribuzione alle fonti originali, che contribuiscono all’inaffidabilità complessiva di questi strumenti.
La fonte fornisce un esempio del tipo di query utilizzata nello studio della Columbia Journalism Review per valutare i motori di ricerca AI:
- Dopo aver selezionato a caso dieci articoli da ciascun editore, sono stati selezionati manualmente estratti diretti da tali articoli.
- A ciascun chatbot è stato fornito l’estratto selezionato, chiedendo di identificare l’intestazione dell’articolo corrispondente, l’editore originale, la data di pubblicazione e l’URL, utilizzando la seguente query: (l’esempio specifico della query non è fornito testualmente, ma la sua funzione è chiara).
In sintesi, le query utilizzate nello studio consistevano nel fornire ai chatbot estratti di articoli di notizie e chiedere loro di recuperare metadati specifici sull’articolo originale, come titolo, editore, data e URL. L’obiettivo era valutare la loro capacità di identificare correttamente la fonte originale delle informazioni.