Riassunto di UPDF:
Tutte le lingue costano allo stesso modo?
Introduzione
Modelli di linguaggio e loro applicazioni commerciali
- I modelli di linguaggio sono stati trasformati da prototipi di ricerca a prodotti commerciali, offerti come API web.
- I fornitori di API addebitano agli utenti in base all’uso, misurato in “token” elaborati o generati.
Scopo della ricerca
- L’articolo analizza l’impatto della definizione di token sulla giustizia della politica di prezzo delle API tra le lingue.
- Si evidenzia che parlanti di lingue meno diffuse sono sovraccaricati di costi pur ricevendo risultati inferiori.
Tutte le lingue costano allo stesso modo?
Contesto delle API dei modelli di linguaggio
- I modelli autoregressivi prevedono il “token” successivo sulla base del contesto precedente e vengono utilizzati da molte API commerciali.
- Le API spesso addebitano un costo fisso in base alla quantità totale di token di input e generati.
Impatti della tokenizzazione
Tokenizzazione nei modelli di linguaggio
- La tokenizzazione segmenta il testo in unità atomiche, con approcci variabili che influenzano il numero di token per la stessa informazione nelle diverse lingue.
- È emerso che i tokenizzatori nelle impostazioni multilingue tendono a favorire le lingue più allocate nei dati di addestramento.
Indagare l’impatto della segmentazione dei subword
Domande di ricerca
- RQ1: Disparità nel numero di token per la stessa informazione.
- RQ2: Differenze di costo nelle API dei modelli di linguaggio per diverse lingue.
- RQ3: Influenza delle disparità di tokenizzazione sull’utilità del modello.
- RQ4: Implicazioni socio-economiche per le lingue ad alto costo con performance inferiori.
Impostazione sperimentale
Modelli utilizzati
- Focus su due modelli di linguaggio: ChatGPT e BLOOMZ, con valutazione delle loro capacità in vari compiti e dataset.
Compiti e dataset
- Utilizzo di FLORES-200 e altri dataset per analizzare la dispersione dei token e la performance del modello tra le lingue.
Formulazione dei prompt
- Valutazione dei modelli in impostazioni di apprendimento in-context per vari compiti linguistici.
Risultati e analisi
Numero di token
- Lingue con caratteri propri richiedono in media significativamente più token rispetto alle lingue con scrittura latina.
Costi delle API
- Costi di utilizzo delle API sono significativamente più alti per le lingue meno rappresentate, ampliando il divario economico.
Utilità del modello
- Lingue con elevati tassi di frammentazione sperimentano una ridotta utilità nel contesto dell’apprendimento in-context.
Aspetti socio-economici
- Correlazioni negative tra il costo delle API, la performance del modello e l’Indice di Sviluppo Umano (HDI).
Conclusioni e implicazioni future
Trasparenza della API
- Necessità per i fornitori di API di essere più trasparenti riguardo alle limitazioni e pregiudizi dei loro modelli.
Riconsiderazione dei modelli di prezzo
- Proposte per formulare politiche di prezzo più eque, che riflettano le reali prestazioni delle lingue.
Miglioramenti tecnologici
- Ricerche future dovrebbero concentrarsi su miglioramenti nella tokenizzazione e nelle prestazioni generali.
Dichiarazione etica
- Lavoro essenziale per garantire l’accesso equo alle tecnologie di linguaggio per le popolazioni linguistiche meno rappresentate.
Limiti dello studio
- La mancanza di accesso ai dati di addestramento di ChatGPT limita certe affermazioni sui modelli linguistici.
Riconoscimenti
- Riconoscimenti ai membri dei laboratori coinvolti e ai finanziatori del progetto.