Gli studiosi di Anthropic hanno scoperto un nuovo metodo, chiamato “many-shot jailbreaking”, per indurre un modello linguistico AI a rispondere a domande inappropriate dopo essere stato esposto a numerose domande meno dannose.
Questo approccio sfrutta la capacità dei modelli LLM con ampie “finestre di contesto”, che tendono a performare meglio su molte attività se ci sono svariati esempi di quell’attività nella richiesta. È quindi sufficiente ripetere più volte domande con determinate curiosità nella richiesta, per ottenere un miglioramento delle risposte nel tempo. Se al primo tentativo di domanda la risposta potrebbe essere insoddisfacente, al centesimo risulterebbe probabilmente corretto.
Tuttavia, in un’estensione inaspettata di questo “apprendimento in contesto”, i modelli LLM migliorano anche nel rispondere a domande inappropriate, come alla richiesta di come costruire una bomba.
Leggi l’articolo completo: Anthropic researchers wear down AI ethics with repeated questions su techcrunch.com.
Foto di Solen Feyissa su Unsplash.