Negli ultimi tempi, l’intelligenza artificiale generativa è diventata accessibile a chiunque abbia accesso a internet, con programmi come ChatGPT, Bard, Mid Journey, Dall-E e Stable Diffusion, i quali producono testi e immagini diffusi online. I ricercatori stanno ora esaminando un potenziale problema noto come “model collapse”. Questo fenomeno si verifica quando i contenuti generati inquinano i dataset per gli addestramenti futuri, portando a una percezione distorta della realtà nei modelli successivi.
Il modello collapse è stato descritto come un processo degenerativo in cui i dati generati dalle AI finiscono per contaminare i dataset, influenzando negativamente le iterazioni future. I grandi modelli linguistici (Large Language Models: LLM), come quelli utilizzati in ChatGPT, operano statisticamente e tendono a eliminare eventi poco probabili ad ogni iterazione successiva. Se i dati utilizzati per l’addestramento contengono errori o bias, l’IA generativa li replicherà.
Il problema si aggrava quando una crescente quantità di informazioni deriva da fonti sintetiche, create dalle stesse macchine. Ciò può portare a un disturbo chiamato “Model Autophagy Disorder” (MAD), dove i modelli iniziano a nutrirsi delle informazioni che essi stessi hanno generato.
Gli effetti di questo fenomeno si manifestano anche nella qualità del linguaggio, che tende a peggiorare, appiattendosi su un livello con una minore diversità linguistica. Questo è evidente nei suggerimenti automatici, nei correttori automatici e nei sistemi di raccomandazione che tendono a offrire soluzioni statisticamente più probabili, ma con una ridotta varietà.
Il dottorando Daniele Gambetta, esperto in intelligenza artificiale, sottolinea l’importanza di comprendere questi fenomeni emergenti, coinvolgendo approcci tecnici e teorie provenienti dalla sociologia e dalla psicologia.
Leggi qui l’intero articolo: Se l’intelligenza artificiale inizia a cibarsi dei dati che ha prodotto, abbiamo un problema