Nel suo rapporto, la task force edpb distingue cinque fasi nel processo di generazione dei testi in cui avviene un trattamento dei dati personali. Queste fasi sono:
1. Raccolta dati per addestramento: include attività come il web scraping o il riutilizzo di set di dati esistenti.
2. Pre-elaborazione: comprende il filtraggio e la pulizia dei dati raccolti.
3. Addestramento: fase in cui il modello viene effettivamente addestrato utilizzando i dati pre-elaborati.
4. Prompt e output di Chatgpt: interazione dell’utente con il modello e generazione delle risposte.
5. Addestramento di Chatgpt con prompt: ulteriore addestramento del modello basato sui prompt forniti dagli utenti. (…)
un metodo con cui le grandi aziende tecnologiche tentano di eludere le norme del gdpr è quello di negare di essere titolari del trattamento. In sostanza, esse avanzano la teoria che il «titolare del trattamento» non è l’azienda tecnologica che sviluppa e diffonde il servizio, ma l’utilizzatore del servizio stesso, sul quale dunque incombono tutti gli obblighi previsti dal regolamento. Ad esempio, recentemente Microsoft ha respinto le richieste di accesso ai propri dati da parte degli utenti della piattaforma 365 Education, impiegata da molte scuole in tutto il mondo, invitandoli a rivolgersi direttamente alla loro scuola: secondo Microsoft, infatti, il titolare del trattamento dei dati non è Microsoft ma la scuola che adotta la piattaforma (…) la pretesa (…) di scaricare interamente sull’utente la responsabilità del trattamento dei dati personali è contraria non solo al testo del Regolamento, ma anche alla giurisprudenza in materia (…) a seguito dei rilievi del Garante nel primo provvedimento, Openai ha modificato la propria policy includendo un’informativa specifica per gli utenti dei paesi ue. In essa si dichiara di raccogliere tre categorie di «dati dell’utente», e cioè i dati personali forniti dall’utente stesso (quando si iscrive al servizio e crea l’account), i dati ricevuti «automaticamente dall’utilizzo dei Servizi da parte dell’utente» (informazioni tecniche sull’utilizzo del servizio), e infine «Dati Personali che riceviamo da altre fonti», comprendenti «informazioni pubbliche disponibili su internet» che Openai utilizza «in particolare per sviluppare i modelli che alimentano i nostri Servizi». (…) Il trattamento dei dati personali è lecito unicamente a condizione che ricorra almeno una delle basi giuridiche elencate in modo esaustivo all’articolo 6 del Regolamento. Queste comprendono il consenso dell’interessato, la necessità (per concludere un contratto, o adempiere a un obbligo di legge o per salvare la vita di una persona) o il legittimo interesse del titolare del trattamento. Quest’ultimo può essere invocato come legittima base giuridica solo «a condizione che non prevalgano gli interessi o i diritti e le libertà fondamentali dell’interessato», cioè della persona titolare dei dati. Ciò riguarda non solo le informazioni «private», ossia quelle che riguardano più da vicino la tutela della privacy, ma anche le informazioni che la persona ha reso pubbliche, ad esempio condividendole volontariamente su internet. I dati personali non perdono la loro natura quando vengono divulgati direttamente dalla persona a cui si riferiscono. È pertanto un errore ritenere che l’utilizzo di informazioni «che si trovano su internet» sia sempre e comunque consentito. (…) La «ragionevole aspettativa» della persona è un elemento fondamentale per stabilire se un trattamento di dati personali senza il consenso della persona possa rientrare nel legittimo interesse del titolare del trattamento. (AA. VV., “Critica di chatgpt”)