30 Novembre 202430 Novembre 2024 Marco Guastavigna

I costi delle lingue

2023.emnlp-main.614 Download

Riassunto di UPDF:

Tutte le lingue costano allo stesso modo?

Introduzione

Modelli di linguaggio e loro applicazioni commerciali

I modelli di linguaggio sono stati trasformati da prototipi di ricerca a prodotti commerciali, offerti come API web.
I fornitori di API addebitano agli utenti in base all’uso, misurato in “token” elaborati o generati.

Scopo della ricerca

L’articolo analizza l’impatto della definizione di token sulla giustizia della politica di prezzo delle API tra le lingue.
Si evidenzia che parlanti di lingue meno diffuse sono sovraccaricati di costi pur ricevendo risultati inferiori.

Tutte le lingue costano allo stesso modo?

Contesto delle API dei modelli di linguaggio

I modelli autoregressivi prevedono il “token” successivo sulla base del contesto precedente e vengono utilizzati da molte API commerciali.
Le API spesso addebitano un costo fisso in base alla quantità totale di token di input e generati.

Impatti della tokenizzazione

Tokenizzazione nei modelli di linguaggio

La tokenizzazione segmenta il testo in unità atomiche, con approcci variabili che influenzano il numero di token per la stessa informazione nelle diverse lingue.
È emerso che i tokenizzatori nelle impostazioni multilingue tendono a favorire le lingue più allocate nei dati di addestramento.

Indagare l’impatto della segmentazione dei subword

Domande di ricerca

RQ1: Disparità nel numero di token per la stessa informazione.
RQ2: Differenze di costo nelle API dei modelli di linguaggio per diverse lingue.
RQ3: Influenza delle disparità di tokenizzazione sull’utilità del modello.
RQ4: Implicazioni socio-economiche per le lingue ad alto costo con performance inferiori.

Impostazione sperimentale

Tutte le lingue costano allo stesso modo?

Introduzione

Modelli di linguaggio e loro applicazioni commerciali

Scopo della ricerca

Tutte le lingue costano allo stesso modo?

Contesto delle API dei modelli di linguaggio

Impatti della tokenizzazione

Tokenizzazione nei modelli di linguaggio

Indagare l’impatto della segmentazione dei subword

Domande di ricerca

Impostazione sperimentale

Modelli utilizzati

Compiti e dataset

Formulazione dei prompt

Risultati e analisi

Numero di token

Costi delle API

Utilità del modello

Aspetti socio-economici

Conclusioni e implicazioni future

Trasparenza della API

Riconsiderazione dei modelli di prezzo

Miglioramenti tecnologici

Dichiarazione etica

Limiti dello studio

Riconoscimenti

Mi piace:

Correlati

I costi delle lingue

Tutte le lingue costano allo stesso modo?

Introduzione

Modelli di linguaggio e loro applicazioni commerciali

Scopo della ricerca

Tutte le lingue costano allo stesso modo?

Contesto delle API dei modelli di linguaggio

Impatti della tokenizzazione

Tokenizzazione nei modelli di linguaggio

Indagare l’impatto della segmentazione dei subword

Domande di ricerca

Impostazione sperimentale

Modelli utilizzati

Compiti e dataset

Formulazione dei prompt

Risultati e analisi

Numero di token

Costi delle API

Utilità del modello

Aspetti socio-economici

Conclusioni e implicazioni future

Trasparenza della API

Riconsiderazione dei modelli di prezzo

Miglioramenti tecnologici

Dichiarazione etica

Limiti dello studio

Riconoscimenti

Condividi:

Mi piace:

Correlati

Scopri di più da Concetti Contrastivi