Come insegnare agli agenti intelligenti a giocare attraverso istruzioni multi-modali

L’intelligenza artificiale ha fatto passi da gigante negli ultimi anni, ma rimane ancora una sfida creare agenti in grado di apprendere e adattarsi rapidamente a nuovi compiti e ambienti. Un team di ricercatori ha recentemente pubblicato uno studio rivoluzionario che propone un nuovo approccio per abilitare gli agenti di AI a comprendere e seguire istruzioni di gioco multimodali per imparare a giocare a nuovi giochi.

Lo studio, intitolato “Read to Play (R2-Play): Decision Transformer con istruzioni di gioco multimodali“, è stato pubblicato su arXiv da Yonggang Jin, Ge Zhang, Hao Zhao e altri ricercatori di università e aziende tra cui l’Università di Pechino, HKUST, Vector Institute e Harmony.AI.

Gli autori spiegano che gli sforzi precedenti nel campo dell’AI per creare agenti in grado di gestire diversi compiti si sono basati su enormi set di dati offline provenienti da varie attività. Nonostante le prestazioni notevoli, questi agenti incontrano ancora difficoltà nell’estendere le loro capacità a nuovi compiti.

Recenti approcci che integrano guida testuale o traiettorie visive nelle reti decisionali rappresentano una direzione promettente. Tuttavia, affidarsi solo al testo o alle traiettorie visive è insufficiente per trasmettere con precisione le informazioni contestuali dei compiti.

Partendo dal successo dell’allineamento di istruzioni multimodali in compiti visivi, gli autori trattano il compito di RL basato sulla visione come un compito visivo a lungo termine. Costruiscono quindi un set di “Istruzioni di gioco multimodali” (MGI) per incorporare l’allineamento di istruzioni in un Decision Transformer.

Le MGI contengono migliaia di istruzioni di gioco da circa 50 diversi giochi Atari, progettate per fornire un contesto dettagliato. Ogni istruzione implica una traiettoria di 20 passi, etichettata con la corrispondente guida linguistica.

I risultati sperimentali dimostrano che l’incorporazione delle istruzioni di gioco multimodali migliora significativamente le capacità di multitasking e generalizzazione del Decision Transformer. Inoltre, le istruzioni multimodali superano il solo linguaggio testuale e le traiettorie visive, dimostrando la loro superiore capacità di fornire un contesto dettagliato e completo.

Questa ricerca innovativa segna un passo importante verso la creazione di agenti di AI più versatili e adattabili grazie all’integrazione di istruzioni multimodali. Potrebbe aprire la strada a ulteriori progressi nell’apprendimento per rinforzo e nell’IA generale.

Leggi l’articolo completo qui: https://arxiv.org/abs/2402.04154v2

Accedi per vedere questi contenuti

registrati se non lo ha ancora fatto