A Large Language Model That Can Speak and Listen
Abstract
Presentiamo AudioPaLM, un modello linguistico di grandi dimensioni per la comprensione e la generazione del parlato.
AudioPaLM fonde i modelli linguistici basati sul testo e sul parlato, PaLM-2 [Anil et al., 2023] e AudioLM [Borsos et al., 2022], in un’architettura multimodale unificata in grado di elaborare e generare testo e parlato con applicazioni che includono il riconoscimento vocale e la traduzione vocale. AudioPaLM eredita la capacità di preservare le informazioni paralinguistiche, come l’identità del parlante e l’intonazione, da AudioLM e la conoscenza linguistica presente solo nei modelli linguistici di testo, come PaLM-2. Dimostriamo che inizializzare AudioPaLM con i pesi di un modello linguistico di grandi dimensioni solo testuale migliora l’elaborazione del parlato, sfruttando con successo la maggiore quantità di dati di addestramento testuali utilizzati nel preaddestramento per aiutare i compiti vocali. Il modello risultante supera in modo significativo i sistemi esistenti per i compiti di traduzione vocale e ha la capacità di eseguire la traduzione speech-to-text per molte lingue per le quali le combinazioni di lingue di input e di destinazione non sono state viste durante l’addestramento. AudioPaLM dimostra anche le caratteristiche dei modelli linguistici audio, come il trasferimento di una voce da una lingua all’altra sulla base di un breve messaggio parlato.
Continua a leggere l’articolo scientifico! Abstract estratto da: AudioPaLM – Google Research