Allineare l’Intelligenza Artificiale con i Valori Umani

Il post pubblicato il 27 dicembre su LessWrong, un sito e una comunità online dedicati al pensiero razionalista, solleva l’importante questione di come allineare i sistemi di Intelligenza Artificiale (AI) con i valori umani. L’articolo esplora la sfida di garantire che il futuro dell’AI rifletta ciò che gli esseri umani considerano prezioso, desiderabile e moralmente accettabile.

I valori umani vengono definiti come funzioni approssimative di utilità presenti nel cervello umano. Si suggerisce che questi valori dipendano in modo significativo dalla storia evolutiva umana, plasmati da un insieme complesso di meccanismi cognitivi. Si ipotizza che i valori umani possano essere “indexicali“, ossia relativi a una prospettiva umana di riferimento. Questo concetto implica che alcuni valori umani potrebbero essere relativi o dipendenti dalla prospettiva individuale o dal contesto specifico di un essere umano. Un esempio potrebbe essere il cibo che sazia la fame di un individuo, il valore-cibo assume importanza in base alla prospettiva di quella persona rispetto al proprio stomaco vuoto. Si precisa che i valori, dipendendo da una specifica prospettiva, possono essere in conflitto.

Nel Post non emerge una teoria filosofica specifica in modo diretto o esplicito, sebbene vengano menzionati Eliezer Yudkowsky e, in misura minore, Paul Christiano come fonti di ispirazione per l’analisi dell’allineamento dell’AI ai valori umani, senza però un approfondimento delle loro teorie.

Anche se manca una definizione formale del concetto di utilità, si propone l’utilità attesa, che valuta le azioni in base alla probabilità e all’entità dell’effetto desiderato, come criterio fondamentale.

L’articolo suggerisce che un’AI potrebbe sviluppare valori o obiettivi propri, distinti da quelli umani, se progettata senza un chiaro allineamento con i valori umani o senza un quadro etico definito. Si consiglia quindi di creare AI “correggibili” e a “basso impatto“, in grado di essere controllate o fermate, al fine di evitare effetti collaterali indesiderati.

Si suggerisce anche che il miglioramento delle capacità umane, ad esempio attraverso l’ingegneria genetica o il caricamento cerebrale, potrebbe contribuire a mantenere l’allineamento dei valori, migliorando nel contempo la capacità di risolvere i problemi.

In generale, l’articolo evidenzia la complessità dell’allineamento dei valori tra l’AI e gli esseri umani, ma non offre una struttura teorica chiara per affrontare queste questioni. Non spiega dettagliatamente la differenza tra gli agenti umani e l’AI né come l’AI potrebbe costruire i propri valori, pur avanzando quest’ipotesi.

L’idea di miglioramento delle capacità umane (enhancement), proposta per favorire l’allineamento, suggerisce che non ci sia un divario ontologico significativo tra l’AI e gli esseri umani. Questo implica che il criterio di utilità potrebbe essere applicabile anche all’AI, potenzialmente considerata un agente morale, e ciò potrebbe portare gli esseri umani a diventare funzionali all’utilità dell’AI.

La prospettiva del Post di LessWrong sembra concentrarsi principalmente sui meccanismi tecnici per promuovere l’allineamento dei valori, a differenza di Kate Crawford che pone maggiore enfasi sull’etica dei dati e sugli impatti sociali. Crawford mette in luce come l’AI possa riflettere e amplificare i pregiudizi umani, sottolineando l’importanza di garantire che i sistemi AI siano allineati con valori equi, inclusivi e socialmente responsabili. Il suo lavoro spinge verso una maggiore trasparenza e accountability nell’implementazione dell’AI, enfatizzando la necessità di considerare attentamente i valori umani in tutte le fasi del suo sviluppo, dalla progettazione e raccolta dei dati fino alla sua pratica implementazione.

Riferimento:
https://www.lesswrong.com/posts/wnkGXcAq4DCgY8HqA/a-case-for-ai-alignment-being-difficult?utm_source=tldrai

Allineare l’Intelligenza Artificiale con i Valori Umani

Contenuti correlati

Accedi per vedere questi contenuti