OpenAI sta portando ChatGPT a un nuovo livello di interattività, introducendo capacità vocali e di generazione di immagini. Queste nuove funzionalità sono inserite in un’interfaccia più intuitiva e naturale, permettendo agli utenti di avviare conversazioni vocali o mostrare a ChatGPT ciò di cui stanno parlando attraverso immagini.
Adesso, mentre si è in viaggio, si potrà scattare una foto a un monumento e discuterne in tempo reale con ChatGPT. A casa, una foto del frigorifero o della dispensa potrebbe aiutare a decidere cosa preparare per cena, con la possibilità di chiedere ricette passo per passo.
Le nuove funzionalità saranno gradualmente disponibili per gli utenti Plus e Enterprise nelle prossime due settimane. La funzione vocale sarà disponibile su iOS e Android (è necessario attivarla nelle impostazioni), mentre la funzione di image generation sarà accessibile su tutte le piattaforme.
La capacità vocale è alimentata da un nuovo modello di text-to-speech, in grado di generare audio realistico a partire da semplice testo e pochi secondi di discorso campione. Per creare le voci, OpenAI ha collaborato con attori vocali professionisti. L’azienda utilizza anche Whisper, il suo sistema open-source di riconoscimento vocale, per trascrivere le parole pronunciate in testo.
Per quanto riguarda le immagini, ChatGPT ora può analizzare una o più immagini per aiutarti a risolvere problemi, pianificare pasti o analizzare dati complessi per il lavoro. L’interpretazione delle immagini è supportata dai modelli multimodali GPT-3.5 e GPT-4.
OpenAI prevede di espandere l’accesso a queste nuove funzionalità anche ad altri gruppi di utenti, inclusi gli sviluppatori, subito dopo il rilascio iniziale per gli utenti Plus ed Enterprise.