Cerca
Close this search box.

Stochastic Parrots revisited

A due anni dalla sua pubblicazione l’articolo “On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?” di Emily M Bender, Timnit  Gebru, Angelina  McMillan-Major, Shmargaret  Shmitchell (FAccT ’21: Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency p 610–623) mantiene tutta la sua attualità, avendo precorso i tempi riguardo ai rischi e limiti sottostanti alle tecnologie Large Language Models (LLM, ma allora ancora con la “elle” minuscola) che hanno portato a ChatGPT.

Al momento della sua pubblicazione Il dibattito sui media si è focalizzato soprattutto sul tema del consumo energetico dei LLM, sul problema dei bias e sulla vicenda del licenziamento delle due top scientists Timnit Gegru e Margaret Mitchell dall’Ethical AI research group di Google.

Meno attenzione è stata data dai media ad altri rischi evidenziati dalle autrici: lo scopo dell’articolo è capire i limiti degli LLM e contestualizzare il loro successo. È utile l’articolo riprendere a due anni di distanza dalla sua pubblicazione per capire il dibattito in corso sui LLM dopo l’apertura al grande pubblico di ChatGPT e degli altri LLM come Bard o Llama.

L’articolo è anche un appello alla comunità scientifica, che rischia di trascurare la ricerca per comprendere il linguaggio umano per creare invece LLM sempre più grandi: “il nostro tempo e il nostro impegno di ricerca sono una risorsa preziosa, da spendere per il misura possibile su progetti di ricerca che costruiscono verso un tecnologico ecosistema i cui benefici sono almeno equamente distribuiti o ancora meglio vanno a coloro storicamente più emarginati.”

Primo punto da sottolineare è la sezione intitolata “Unfathomable Training Data”. “Unfathomable” è un termine poco usato, per cui dobbiamo ricorrere al dizionario. Vuol dire “incapable of being fully explored or understood” (da Oxford Languages). E tali sono purtroppo i dati di partenza su cui vengono allenati i LLM, come vedremo sotto.

La sezione si articola in 4 parti:

Size Doesn’t Guarantee Diversity
Static Data/Changing Social Views
Encoding Bias
Curation, Documentation & Accountability


Si usa dire che “there’s no data like more data” e che il progresso nel campo dei LLM consista principalmente nella creazione di modelli di taglia sempre più “LARGE”.

Le dimensioni non contano, dicono le autrici, perché per quanto immensi i dataset usati per l’addestramento dei LLM come Common Crawl (“petabytes di dati collezionati in 8 anni di web crawling”) sono meno rappresentativi della diversità delle nostre società di quanto possa sembrare: la partecipazione a internet è limitata da vari fattori. Ad esempio, nuovi movimenti sociali emergono piano piano, modificando anche l’uso del linguaggio per destabilizzare le narrative dominanti e focalizzarle verso i punti di vista di minoranze sottorappresentate. Si pensi all’emersione di movimenti come il Black Lives Matter. E spesso movimenti più pacifici ricevono meno attenzione sul web rispetto a chi protesta in forme violente. 

Ma i LLM sono addestrati “sul passato” del web più che sul presente e si rischia un ‘value-lock’, una stasi valoriale, dove gli LLM reificano vecchie concezioni meno inclusive: finiscono per rappresentare in forma distorta i movimenti sociali e ad allinearsi in maniera sproporzionata con i regimi di potere esistenti. Non possiamo ignorare, come ci ricorda sempre Kate Crawford [https://www.katecrawford.net/ FARE POST], che codificare operazionalmente concetti sociali in algoritmi è necessariamente una scelta politica. Anche solo decidere se mantenere lo status quo ante.

Ma come ci ricorda Cathy O’Neil questi algoritmi diventano Weapons of Math Destruction perchè oltre a rappresentare questi punti di vista finiscono per propagarli perchè producono nuovi testi (sintetici) che diventeranno parte del dataset di apprendimento alla prossima iterazione di web crawling e learning dei LLM, creando un circolo vizioso.

Riguardo al problema dei pregiudizi e bias, le autrici ricordano che alimentare i sistemi di intelligenza artificiale con la bellezza, la bruttezza e la crudeltà del mondo, ma aspettandosi che si rifletta solo la bellezza è una fantasia.

Ma scegliere nel dataset di apprendimento cosa eliminare non è un compito banale e non solo tecnico: bisogna comprendere a priori quali siano le categorie sociali rilevanti, al di là di quelle istituzionalmente riconosciute come razza e genere: per fare un “audit” dei dati bisogna sapere cosa cercare, altrimenti rischiamo di lasciare fuori categorie già marginalizzate. E quali siano rilevanti dipende spesso dal contesto culturale: ad esempio, uomini e donne hanno una percezione molto diversa riguardo al fatto se un certo contenuto testuale sia da considerare una molestia online.

Ma del bias si discute già molto, focalizziamoci sugli altri aspetti più originali

Per quel che riguarda l’ultimo punto, quello della “curation”, la definizione di “unfathomable” del dizionario Oxford Languages non è sufficiente: non è solo una impossibilità quella di esaminare il corpus, ma piuttosto è il risultato del mancato stanziamento di un budget sufficiente da parte dei produttori di LLM.

Questa dimensione economica che ribalta le responsabilità sul produttore di LLM è uno dei motivi che ne spiegano la reticenza a parlare di cosa c’è dentro i training set degli LLM.

Il rischio è quello di incorrere in un “debito di documentazione” (“documentation debt”): ci siamo messi in una situazione in cui i dataset sono sia non documentati, sia troppo grandi per documentarli adeguatamente.

Ma la critica che guarda più al futuro dell’uso dei LLM è nella sezione Stochastic Parrots, il termine coniato dalla creativa linguista Emily Bender co-autrice dell’articolo. La coerenza che l’utente di ChatGPT trova nel testo è in realtà solo “in the eye of the beholder”, nell’occhio di chi guarda. La coerenza di una risposta ad una nostra domanda risiede solo nella capacità di noi umani di riconoscere gli stati mentali (credenze, intenzioni, scopi) ed emozioni degli interlocutori in un contesto. Interlocutori che da svariate decine di migliaia di anni sono stati solo altri esseri umani uguali a noi. La comunicazione si basa sulla capacità di interpretare il significato implicito convogliato dall’interlocutore in una attività costruita congiuntamente basata su un contesto condiviso.

Il testo generato dai LLM non è basato su nessun intento comunicativo, nessun modello del mondo o della mente dell’interlocutore: il training set su cui si è basato l’apprendimento, infatti, non contiene gli stati mentali degli autori dei testi raccolti.

L’attribuzione di intenzioni comunicative a ChatGPT è una pura illusione che nasce dalla nostra competenza linguistica e dalla nostra predisposizione a comprendere gli atti linguistici come messaggeri di un significato e intento coerente.

Questa illusione è alla base della possibilità che ChatGPT e gli altri LLM hanno di costruire “relazioni sintetiche” e di manipolare gli esseri umani.

E questa concludono le autrici è una barriera da superare con cautela: “lavorare sul comportamento umano sintetico è una linea gialla nello sviluppo etico dell’IA, in cui gli effetti a valle devono essere compresi e modellati per bloccare i danni prevedibili alla società e ai diversi gruppi sociali”



Accedi per vedere questi contenuti

registrati se non lo ha ancora fatto