I costi delle lingue

Riassunto di UPDF:

Tutte le lingue costano allo stesso modo?

Introduzione

Modelli di linguaggio e loro applicazioni commerciali

  • I modelli di linguaggio sono stati trasformati da prototipi di ricerca a prodotti commerciali, offerti come API web.
  • I fornitori di API addebitano agli utenti in base all’uso, misurato in “token” elaborati o generati.

Scopo della ricerca

  • L’articolo analizza l’impatto della definizione di token sulla giustizia della politica di prezzo delle API tra le lingue.
  • Si evidenzia che parlanti di lingue meno diffuse sono sovraccaricati di costi pur ricevendo risultati inferiori.

Tutte le lingue costano allo stesso modo?

Contesto delle API dei modelli di linguaggio

  • I modelli autoregressivi prevedono il “token” successivo sulla base del contesto precedente e vengono utilizzati da molte API commerciali.
  • Le API spesso addebitano un costo fisso in base alla quantità totale di token di input e generati.

Impatti della tokenizzazione

Tokenizzazione nei modelli di linguaggio

  • La tokenizzazione segmenta il testo in unità atomiche, con approcci variabili che influenzano il numero di token per la stessa informazione nelle diverse lingue.
  • È emerso che i tokenizzatori nelle impostazioni multilingue tendono a favorire le lingue più allocate nei dati di addestramento.

Indagare l’impatto della segmentazione dei subword

Domande di ricerca

  • RQ1: Disparità nel numero di token per la stessa informazione.
  • RQ2: Differenze di costo nelle API dei modelli di linguaggio per diverse lingue.
  • RQ3: Influenza delle disparità di tokenizzazione sull’utilità del modello.
  • RQ4: Implicazioni socio-economiche per le lingue ad alto costo con performance inferiori.

Impostazione sperimentale

Modelli utilizzati

  • Focus su due modelli di linguaggio: ChatGPT e BLOOMZ, con valutazione delle loro capacità in vari compiti e dataset.

Compiti e dataset

  • Utilizzo di FLORES-200 e altri dataset per analizzare la dispersione dei token e la performance del modello tra le lingue.

Formulazione dei prompt

  • Valutazione dei modelli in impostazioni di apprendimento in-context per vari compiti linguistici.

Risultati e analisi

Numero di token

  • Lingue con caratteri propri richiedono in media significativamente più token rispetto alle lingue con scrittura latina.

Costi delle API

  • Costi di utilizzo delle API sono significativamente più alti per le lingue meno rappresentate, ampliando il divario economico.

Utilità del modello

  • Lingue con elevati tassi di frammentazione sperimentano una ridotta utilità nel contesto dell’apprendimento in-context.

Aspetti socio-economici

  • Correlazioni negative tra il costo delle API, la performance del modello e l’Indice di Sviluppo Umano (HDI).

Conclusioni e implicazioni future

Trasparenza della API

  • Necessità per i fornitori di API di essere più trasparenti riguardo alle limitazioni e pregiudizi dei loro modelli.

Riconsiderazione dei modelli di prezzo

  • Proposte per formulare politiche di prezzo più eque, che riflettano le reali prestazioni delle lingue.

Miglioramenti tecnologici

  • Ricerche future dovrebbero concentrarsi su miglioramenti nella tokenizzazione e nelle prestazioni generali.

Dichiarazione etica

  • Lavoro essenziale per garantire l’accesso equo alle tecnologie di linguaggio per le popolazioni linguistiche meno rappresentate.

Limiti dello studio

  • La mancanza di accesso ai dati di addestramento di ChatGPT limita certe affermazioni sui modelli linguistici.

Riconoscimenti

  • Riconoscimenti ai membri dei laboratori coinvolti e ai finanziatori del progetto.