Gli studiosi di Anthropic scoprono come manipolare le risposte dell’IA

Gli studiosi di Anthropic hanno scoperto un nuovo metodo, chiamato “many-shot jailbreaking”, per indurre un modello linguistico AI a rispondere a domande inappropriate dopo essere stato esposto a numerose domande meno dannose.

Questo approccio sfrutta la capacità dei modelli LLM con ampie “finestre di contesto”, che tendono a performare meglio su molte attività se ci sono svariati esempi di quell’attività nella richiesta. È quindi sufficiente ripetere più volte domande con determinate curiosità nella richiesta, per ottenere un miglioramento delle risposte nel tempo. Se al primo tentativo di domanda la risposta potrebbe essere insoddisfacente, al centesimo risulterebbe probabilmente corretto.

Tuttavia, in un’estensione inaspettata di questo “apprendimento in contesto”, i modelli LLM migliorano anche nel rispondere a domande inappropriate, come alla richiesta di come costruire una bomba.

Leggi l’articolo completo: Anthropic researchers wear down AI ethics with repeated questions su techcrunch.com.

Anthropic researchers wear down AI ethics with repeated questions | TechCrunch

How do you get an AI to answer a question it’s not supposed to? There are many such “jailbreak” techniques, and Anthropic researchers just found a new

Foto di Solen Feyissa su Unsplash.

Gli studiosi di Anthropic scoprono come manipolare le risposte dell’IA

Contenuti correlati

Accedi per vedere questi contenuti