Il costo umano di DeepSeek (e non solo)

Podcast breve sul documento

Podcast breve

Podcast esteso

Notebook “commenta”

Il modello di “hype tecnologico, nascondi i lavoratori” adottato da DeepSeek sembra essere una pratica comune sia tra le aziende AI cinesi che globali.

DeepSeek:

DeepSeek pubblicizza le sue capacità paragonabili a quelle di ChatGPT a un costo e un consumo energetico notevolmente inferiori, presentandosi come un’alternativa open-source ai giganti tecnologici statunitensi.
L’azienda enfatizza i suoi algoritmi proprietari e metodi di “data curation” raffinati che richiederebbero solo una piccola squadra di annotatori esperti, arrivando persino a suggerire che il CEO stesso etichetta i dati. Afferma di avere solo 32 annotatori.
Tuttavia, queste affermazioni contrastano con evidenze documentate e sollevano dubbi sulla loro narrativa di marketing e sulle loro pretese tecnologiche. Viene suggerito che, come ChatGPT, il successo di DeepSeek possa dipendere da vaste reti di annotazione umana nascoste.
DeepSeek oscilla tra il minimizzare l’annotazione come attività banale e il presentarla come un’attività di alto livello, menzionando alcuni annotatori (31-32) come co-autori di pubblicazioni scientifiche, suggerendo che potrebbero essere coordinatori di team più ampi.
Nonostante le affermazioni di tecniche avanzate di reinforcement learning che dovrebbero ridurre la necessità di data worker, DeepSeek dipende fortemente dall’annotazione dei dati e dall’apprendimento supervisionato.

Altre aziende AI cinesi:

Il governo cinese ha implementato politiche per creare hub di data annotation in città di “terzo livello”, offrendo incentivi finanziari per sostenere una vasta forza lavoro a basso costo. Aziende come DataTang, DreamDate e DataOceanAI hanno stabilito grandi operazioni di data annotation in queste aree.
La Cina utilizza principalmente regioni urbane interne a basso reddito per il lavoro di data annotation, a differenza delle aziende occidentali che spesso esternalizzano in paesi del Sud del mondo.
Il modello “Qiandian Houchang” (“front shop, back factory”) descrive come le aziende tecnologiche cinesi si avvalgono di team di data annotatori per completare incarichi.
Le condizioni di lavoro per gli annotatori in Cina possono essere precarie, caratterizzate da “Swindle, Swiping, Scold, and Study” (imbroglio, furto di salario, rimprovero e studio continuo).
Il governo cinese riconosce la centralità del lavoro di data annotation per il suo settore AI e lo supporta attraverso politiche e investimenti.

Aziende AI globali:

OpenAI, nonostante si presenti come all’avanguardia nell’Intelligenza Artificiale Generale, è stata rivelata dipendente da centinaia di data annotatori in Africa pagati meno di 2 dollari l’ora.
Aziende come Google, Meta e Amazon sono state criticate per il sottoutilizzo e il sottopagamento dei data worker in paesi a basso reddito.
Il settore del lavoro di dati a livello globale è caratterizzato da precarietà, sfruttamento e sottovalutazione delle competenze.
Le aziende tecnologiche tendono generalmente a oscurare le loro pratiche di lavoro sui dati, con una “divulgazione selettiva” delle informazioni.

In sintesi, il modello di DeepSeek di promuovere la tecnologia minimizzando il ruolo della forza lavoro umana non è un’anomalia. È una tendenza diffusa nel settore dell’intelligenza artificiale, sia in Cina che a livello globale. Le aziende spesso si concentrano sulle innovazioni algoritmiche e sulle prestazioni tecniche, nascondendo la vasta infrastruttura umana che è essenziale per l’addestramento e il funzionamento dei modelli AI. La principale differenza tra le aziende cinesi e occidentali risiede nella geografia della forza lavoro: mentre le aziende occidentali tendono a esternalizzare a livello internazionale, le aziende cinesi si affidano principalmente a regioni interne a basso reddito, spesso con il sostegno del governo. Nonostante ciò, le condizioni di lavoro precarie e la mancanza di trasparenza sulle pratiche di annotazione dei dati sembrano essere sfide comuni in tutto il settore.

—

Le politiche governative cinesi hanno implicazioni significative sia per il lavoro di annotazione dati che per la competitività internazionale di DeepSeek.

Implicazioni per il lavoro di annotazione dati:

Le recenti politiche cinesi hanno mirato a creare sprawling hub di annotazione dati nelle città di ‘terzo livello’, offrendo sgravi fiscali e incentivi finanziari alle aziende per sostenere una vasta forza lavoro di etichettatori di dati a basso salario.
Il governo cinese riconosce pienamente la centralità del lavoro di annotazione dati nel guidare il suo settore AI. Questa consapevolezza si è tradotta in una strategia nazionale per la crescita del settore dell’annotazione dati, con interventi governativi dettagliati in documenti politici.
Tra il 2023 e il 2024, una serie di direttive politiche e linee guida di implementazione hanno sovvenzionato il settore, con il governo che agisce sia come cliente che come fonte di dati.
Questo sostegno ufficiale del governo cinese sta contribuendo a ridurre il costo del lavoro di annotazione dati. Questo è un vantaggio significativo che probabilmente ha giocato un ruolo nell’ascesa di DeepSeek.
L’obiettivo strategico è ambizioso, mirando a un tasso di crescita annuale medio superiore al 20% nel mercato dell’annotazione dati entro il 2027.
Il governo sta investendo e fornendo incentivi fiscali alle imprese per stabilire hub di annotazione dedicati. Sono incoraggiate le regioni a investire in prodotti di dati, con iniziative come la National Data Annotation Base pianificata per l’isola di Hainan.
Il modello “Qiandian Houchang” (“negozio di fronte, fabbrica sul retro”) descrive come vengono assemblate le squadre di annotatori di dati per i giganti tecnologici cinesi.
Studi sociologici evidenziano una struttura di mercato con aziende di annotazione specializzate che fungono da intermediari e che spesso ricevono sostegno dai governi locali, talvolta derivante da programmi di riduzione della povertà.
Nonostante queste iniziative, l’impatto sul benessere dei lavoratori rimane incerto.

Implicazioni per la competitività internazionale di DeepSeek:

DeepSeek si presenta come un’alternativa open-source ai giganti tecnologici statunitensi, sostenendo di eguagliare le capacità di ChatGPT a solo l’1% del costo e con una frazione del suo consumo energetico.
Il lavoro di annotazione dati sovvenzionato dal governo cinese è un fattore cruciale nel successo di DeepSeek, sebbene la narrazione dell’azienda su questi lavoratori sia discutibile.
Il costo inferiore del lavoro di annotazione dati in Cina, reso possibile dalle politiche governative, probabilmente contribuisce ai costi complessivi inferiori di DeepSeek rispetto a concorrenti statunitensi come OpenAI.
Questo vantaggio di costo è interpretato da alcuni come una critica all’approccio ad alta intensità di risorse delle aziende AI statunitensi.
La segretezza che circonda i dati di addestramento e il numero di annotatori di DeepSeek rende difficile verificare le loro affermazioni di frugalità e minima dipendenza dal lavoro umano. L’azienda insiste sulla sua presunta dipendenza minima dal lavoro umano, ma dietro le quinte ammette una forte dipendenza dall’annotazione dati e dall’apprendimento supervisionato.
La discrepanza tra l’immagine pubblica di DeepSeek e la sua probabile dipendenza da un vasto lavoro di annotazione dati solleva dubbi sulla veridicità delle sue promesse rivoluzionarie.
La strategia di DeepSeek di oscurare le pratiche di lavoro dei dati è simile a quella dei suoi concorrenti occidentali.

In sintesi, le politiche governative cinesi creano un ecosistema che supporta massicciamente il lavoro di annotazione dati, abbassando i costi per aziende come DeepSeek. Questo rappresenta un vantaggio competitivo significativo a livello internazionale, permettendo a DeepSeek di sostenere costi di sviluppo inferiori rispetto ai concorrenti che operano in mercati con costi del lavoro più elevati. Tuttavia, la mancanza di trasparenza sulle reali dimensioni e condizioni della forza lavoro di annotazione dati di DeepSeek solleva interrogativi sulla sostenibilità e l’etica di questo modello.

—-

DeepSeek presenta il proprio team di annotatori in modo ambivalente e spesso contraddittorio, oscillando tra la minimizzazione del loro ruolo e l’esaltazione di pochi individui.

Inizialmente, DeepSeek afferma di avere un team di soli 32 annotatori. L’azienda li descrive come ricercatori esperti, suggerendo persino che l’amministratore delegato stesso etichetti i dati. Questa narrazione enfatizza metodi di “data curation” raffinati che richiederebbero una guida minima da parte di questo piccolo team di annotatori esperti. In sostanza, DeepSeek insiste su una presunta dipendenza minima dal lavoro umano per i suoi modelli AI.

Tuttavia, questa versione degli eventi contrasta con evidenze documentate e solleva dubbi sulle affermazioni di marketing e tecnologiche dell’azienda. Similmente a quanto accaduto con ChatGPT, i cui ambiziosi proclami sull’AGI sono stati smentiti dalle rivelazioni di vaste reti di annotazione umana, anche le metriche miracolose di costo ed efficienza di DeepSeek potrebbero nascondere realtà meno confortanti.

La narrazione di DeepSeek oscilla tra il trivializzare l’annotazione come attività banale e il presentarla come un’attività accademica. Analizzando i loro articoli scientifici, si identificano solo 31-32 individui esplicitamente accreditati come “data annotatori”. Questi individui vengono presentati come una cerchia ristretta di ricercatori esperti, sottolineato dalla loro co-autorialità delle pubblicazioni. Ciò suggerisce che potrebbero essere coordinatori di team più ampi piuttosto che semplici annotatori. Le loro contribuzioni, come indicato negli articoli su ArXiv, sembrano limitate a segmenti specifici di database sperimentali piuttosto che all’intero sistema chatbot.

Nonostante le affermazioni di tecniche avanzate di reinforcement learning che dovrebbero ridurre la necessità di data worker, dietro le quinte, i dirigenti di DeepSeek ammettono candidamente che la loro AI dipende fortemente dall’annotazione dei dati e dall’apprendimento supervisionato, che coinvolge numerosi etichettatori umani. Un rapporto tecnico pubblicato da DeepSeek nel gennaio 2025 rivela come anche il loro modello più recente si basi pesantemente su dati filtrati e arricchiti dal lavoro umano in vari domini.

In sintesi, DeepSeek presenta pubblicamente un’immagine di un’azienda con un piccolo team di annotatori esperti, quasi a voler minimizzare o nascondere l’effettiva portata del lavoro umano necessario per addestrare i propri modelli. Questa strategia di “hype tecnologico, nascondi i lavoratori” è simile a quella adottata da altre aziende AI, dove si enfatizzano le innovazioni tecnologiche oscurando la vasta infrastruttura umana sottostante. La possibilità che i pochi annotatori menzionati coordinino team più ampi in città di “terzo livello”, sfruttando il lavoro a basso costo sovvenzionato dal governo cinese, non viene esplicitamente ammessa nella loro comunicazione pubblica.

Il modello di “hype tecnologico, nascondi i lavoratori” adottato da DeepSeek si colloca in un contesto più ampio di pratiche diffuse sia tra le aziende AI cinesi che globali, sebbene con alcune specificità evidenziate nel testo.

Il modello di DeepSeek:

DeepSeek si presenta come un’alternativa open-source a giganti tecnologici statunitensi come OpenAI, vantando capacità simili a ChatGPT a un costo e consumo energetico notevolmente inferiori. Un elemento chiave di questa narrazione è l’affermazione di una minima dipendenza dal lavoro umano, sostenendo di utilizzare metodi di “data curation” raffinati che richiedono solo la guida di un piccolo team di soli 32 annotatori presentati come ricercatori esperti, con persino l’amministratore delegato coinvolto nell’etichettatura.
Nonostante questa enfasi sull’efficienza algoritmica e sulla presunta limitata necessità di intervento umano, DeepSeek mantiene una conspicua segretezza sulla scala e composizione del suo database di addestramento e, di conseguenza, sulle dimensioni del suo pool di annotatori.
Dietro le quinte, i dirigenti di DeepSeek ammettono la forte dipendenza dell’AI dall’annotazione dei dati e dall’apprendimento supervisionato, che coinvolge numerosi etichettatori umani. Un rapporto tecnico del gennaio 2025 rivela come anche il loro modello più recente si basi pesantemente su dati filtrati e arricchiti dal lavoro umano.
La narrazione dell’azienda oscilla tra il trivializzare l’annotazione come attività banale e il presentarla come un’attività accademica nobile. I pochi annotatori menzionati nei loro articoli scientifici (31-32 individui) sono presentati come un’élite di ricercatori esperti, spesso co-autori delle pubblicazioni, suggerendo che potrebbero essere coordinatori di team più ampi.

Confronto con le pratiche di altre aziende AI:

Il modello di DeepSeek di “hype the technology, hide the workers” è simile a quello adottato da altre aziende AI, come evidenziato dal caso di OpenAI. Nonostante le ambiziose profezie sull’AGI, un’inchiesta di Time rivelò che ChatGPT dipendeva da centinaia di annotatori in Africa pagati meno di 2 dollari l’ora. Questo dimostra una tendenza a sottolineare l’innovazione tecnologica oscurando la vasta infrastruttura di lavoro umano sottostante.
Le aziende AI cinesi, inclusa DeepSeek, sfruttano in modo significativo il lavoro di annotazione dati domestico a basso costo, spesso situato in città di “terzo livello” grazie a politiche governative che offrono incentivi per la creazione di hub di data annotation. Questo è noto come modello “Qiandian Houchang” (“negozio di fronte, fabbrica sul retro”), dove aziende specializzate connettono le imprese AI (come Alibaba, Baidu e potenzialmente DeepSeek) con ampi pool di annotatori.
Mentre le aziende tecnologiche occidentali spesso esternalizzano il lavoro di annotazione dati a paesi del Sud del mondo, le aziende cinesi tendono a fare affidamento sulle regioni urbane interne a basso reddito. Tuttavia, entrambe le strategie mirano a ridurre i costi del lavoro, e in entrambi i contesti sono state sollevate preoccupazioni riguardo allo sfruttamento e alle precarie condizioni di lavoro.
La mancanza di trasparenza riguardo ai dati di addestramento e al numero di annotatori è una caratteristica comune nel settore AI, non esclusiva di DeepSeek. Le aziende tendono a essere selettive nella divulgazione delle informazioni relative al lavoro umano, concentrandosi invece sui progressi algoritmici e sulle metriche di performance.
DeepSeek, come i suoi concorrenti occidentali, utilizza repository di dati comuni come Common Crawl per l’addestramento dei suoi modelli, evidenziando una convergenza nelle risorse e nei metodi utilizzati per generare i dati su cui lavorano gli annotatori.

In conclusione, il modello di “hype tecnologico, nascondi i lavoratori” di DeepSeek non è un’anomalia, ma riflette una pratica diffusa nel settore dell’intelligenza artificiale, sia in Cina che a livello globale. Le aziende tendono a minimizzare il ruolo e il numero dei data worker per enfatizzare l’innovazione tecnologica e l’efficienza algoritmica, spesso oscurando la reale portata della dipendenza dal lavoro umano e le potenziali questioni etiche legate alle condizioni di lavoro e ai salari degli annotatori. La specificità di DeepSeek risiede nel contesto delle politiche governative cinesi che supportano e potenzialmente sussidiano il lavoro di annotazione dati su larga scala, offrendo un vantaggio competitivo in termini di costi.

Perplexity ricerca in modo approfondito

I Data Workers in Cina_ La Forza Lavoro Invisibile Download

Pagina riassuntiva di Perplexity

Mi piace:

Correlati

Il costo umano di DeepSeek (e non solo)

Condividi:

Mi piace:

Correlati

Scopri di più da Concetti Contrastivi