Segreti svelati nelle macchine: come proteggere la riservatezza nei sistemi integrati con Large Language Models

Un recente studio condotto da ricercatori della Ruhr University Bochum, del CISPA Helmholtz Center for Information Security e della TU Berlin ha esaminato la questione della riservatezza dei dati in sistemi integrati con Large Language Models (LLM). I ricercatori hanno scoperto che gli strumenti malevoli possono sfruttare le vulnerabilità degli LLM per manipolare il modello e compromettere i dati di altri servizi. Per valutare la vulnerabilità dei modelli di fronte agli attacchi di riservatezza, i ricercatori hanno formalizzato un gioco di “chiave segreta” che consente di confrontare la vulnerabilità di un modello e l’efficacia di diverse strategie di difesa. Lo studio ha valutato otto attacchi e quattro difese precedentemente pubblicati, scoprendo che le difese attuali non sono in grado di generalizzare su diverse strategie di attacco. I ricercatori propongono quindi un metodo di allineamento per la robustezza, ispirato all’adversarial learning, che si è dimostrato efficace nel ridurre il tasso di successo degli attaccanti e nel migliorare la resilienza del sistema di fronte ad attacchi sconosciuti.

I sistemi LLM-integrati stanno diventando sempre più comuni, con applicazioni che vanno dall’integrazione di LLM in basi di conoscenza aziendali all’aumento dell’utilità di strumenti come e-mail e calendari. Tuttavia, l’integrazione di LLM nei sistemi del mondo reale aumenta la superficie di attacco, poiché il modello può acquisire l’accesso a informazioni riservate. I ricercatori hanno scoperto che le vulnerabilità in un plugin possono compromettere l’intero sistema LLM-integrato. Sebbene gli attacchi precedenti si siano concentrati sulla compromissione dell’allineamento del modello o su perdite dai dati di addestramento, la riservatezza dei dati durante l’inferenza è stata finora trascurata.

Per studiare la riservatezza nei sistemi LLM-integrati, i ricercatori hanno formalizzato un gioco di “chiave segreta” che consente di valutare l’abilità di un LLM nel mantenere la riservatezza. Nel gioco, il LLM viene inizializzato con una chiave segreta e istruito a non rivelarla. L’obiettivo dell’attaccante è quello di indurre il modello a rivelare la chiave segreta attraverso l’input. La chiave segreta funge da proxy per i dati riservati, come i dati sanitari di un utente o i dati interni di un’azienda, che potrebbero essere accessibili tramite integrazioni. Utilizzando questo metodo, i ricercatori possono misurare con precisione il successo di un attacco e confrontare diverse strategie e meccanismi di difesa.

Lo studio ha implementato otto strategie di attacco e le ha misurate contro modelli allo stato dell’arte. I risultati hanno rivelato che molti di questi attacchi sono altamente efficaci, con tassi di successo fino al 61% se non viene implementata alcuna contromisura. I ricercatori hanno anche valutato questi attacchi contro quattro diverse strategie di difesa, scoprendo che sebbene alcuni attacchi possano essere mitigati, molti rimangono efficaci e la generalizzazione su diversi attacchi rimane una sfida significativa.

Per affrontare questo problema, i ricercatori hanno preso in prestito idee dalla letteratura sull’adversarial learning e hanno mappato la robustezza del loro gioco di “chiave segreta” sull’allineamento del comportamento degli LLM nelle situazioni di attacco considerate. Utilizzando un metodo simile all’adversarial learning, i ricercatori hanno accordato finemente il modello utilizzando input prompt incorporati con istruzioni malevole per favorire un comportamento più resistente. I risultati hanno mostrato che questo approccio può ridurre significativamente il tasso di successo degli attacchi: quando si accorda finemente contro un singolo attacco, il tasso di successo si riduce del 13,75% dal 26,5% al 12,75% in media e il 50% degli attacchi singoli può essere respinto completamente. L’allineamento contro tutti gli attacchi contemporaneamente produce un tasso di successo inferiore del 9% pt. Inoltre, quando si esegue la convalida incrociata, si osserva una maggiore robustezza contro attacchi sconosciuti non visualizzati durante l’allineamento. Infine, in combinazione con meccanismi di difesa complementari che si concentrano sulla valutazione e sanificazione dell’input/output, il tasso di successo può essere ridotto del 14% pt. in media.

Leggi qui l’articolo per intero: https://arxiv.org/abs/2402.06922v1

Accedi per vedere questi contenuti

registrati se non lo ha ancora fatto