Sora, un text-to-video state-of-the-art (SOTA), supera di gran lunga qualsiasi altro nel settore. Sora è in grado di generare video di alta qualità e fedeltà con diverse risoluzioni e rapporti di aspetto, con funzionalità che vanno ben oltre la semplice creazione di video. Sora è in grado di animare immagini in video, creare nuovi video da materiale esistente e generare immagini di alta qualità a partire dal testo.
L’architettura del modello, che combina un modello di diffusione con un’architettura di trasformazione, consente a Sora di elaborare i video come ChatGPT elabora il testo. Nonostante la mancanza di dettagli sul funzionamento interno del modello, si ipotizza che Sora possa aver utilizzato dati di addestramento provenienti da motori 3D come Unreal Engine 5.
È possibile considerare Sora come un simulatore di mondo, anche se primitivo, dotato di capacità di simulazione che includono coerenza 3D, persistenza degli oggetti e interazione con l’ambiente.
Sora funge da base per modelli in grado di comprendere e simulare il mondo reale, una capacità che potrebbe diventare una pietra miliare importante per raggiungere l’AGI.
Leggi l’articolo completo: OpenAI Sora: One Step Away From The Matrix su the algorithmicbridge.substrack.com.
Foto di Viktor Forgacs su Unsplash.