Nougat: Neural Optical Understanding for Academic Documents

Abstract

La conoscenza scientifica è prevalentemente archiviata in libri e riviste scientifiche, spesso sotto forma di PDF. Tuttavia, il formato PDF comporta una perdita di informazioni semantiche, in particolare per le espressioni matematiche. Proponiamo Nougat (Neural Optical Understanding for Academic Documents), un modello di trasformatore visivo che esegue un’operazione di riconoscimento ottico dei caratteri (OCR) per elaborare i documenti scientifici in un linguaggio di markup, e dimostriamo l’efficacia del nostro modello su un nuovo set di dati di documenti scientifici. L’approccio proposto offre una soluzione promettente per migliorare l’accessibilità della conoscenza scientifica nell’era digitale, colmando il divario tra documenti leggibili dall’uomo e testi leggibili dalla macchina. Rilasciamo i modelli e il codice per accelerare il lavoro futuro sul riconoscimento dei testi scientifici.

Leggi l’articolo cliccando a questo link

Accedi per vedere questi contenuti

registrati se non lo ha ancora fatto