Se la Scienza ha già problemi di riproducibilità, anche l’AI non sta bene soprattutto per via del connubio fra ricerca e impresa nel mondo dell’AI. E l’esplosione dell’AI generativa rischia di peggiorare la situazione.
Il preprint di Stanford University e della University of California, Berkeley, riportato sotto ha recentemente dimostrato che le prestazioni di GPT-4 e GPT-3.5 sui compiti di ragionamento sono cambiate tra marzo e giugno di quest’anno, per lo più in peggio. Questi cambiamenti sono avvenuti senza alcun annuncio da parte di OpenAI. Tali cambiamenti possono impedire la riproduzione di qualsiasi risultato di ricerca prodotto dall’uso di questi modelli in quel periodo di tempo.
Inoltre i ricercatori evidenziano (secondo articolo sotto) come le versioni commerciali di LLM stanno evitando il processo di peer review. Alcuni temi vengono pubblicati su conferenze o riviste scientifiche, come l’architettura del modello, i metodi di addestramento e le prestazioni. Ma ChatGPT e Llama 2 sono stati rilasciati solo con un documento preprint ospitato dall’azienda, probabilmente per proteggere i dettagli segreti sullo struttura e l’addestramento del modello.