Come facciamo a capire se un testo è stato scritto da un algoritmo generativo o da un essere umano? Non è così semplice. Anzi, è così poco semplice che anche i prodotti stessi di IA non lo riescono a fare. E allora può succedere che i nuovi prodotti vengano addestrati su dati sintetici, ovvero su contenuti creati in precedenza da algoritmi generativi.
Più il lavoro di questi algoritmi diventa accurato e simile alla produzione umana, e di conseguenza anche più diffuso, più sarà difficile eliminare i dati sintetici dai campioni di training del machine learning. Questo fenomeno viene indagato da Kevin Roose e Casey Newton che producono Hard Fork – il podcast sulle nuove tecnologie del New York Times – che si chiedono: e se la stessa intelligenza artificiale stesse avvelenandosi? Le informazioni prodotte da chatbot, vengono usate per addestrare altri chatbot, che rielaborano ciò che hanno visto in partenza, e così via. Questo ciclo è una sorta di effetto chewing gum: si continuano a rimasticare le stesse informazioni, fino a far perdere loro sapore e utilità.
Che ruolo hanno i dati sintetici nell’intelligenza artificiale?
Leggi l’articolo Dati sintetici, che cosa sono e perché fanno paura? Intanto il loro valore di mercato cresce sempre di più su Il Corriere della Sera
Immagine in copertina via Unsplash