In un recente editoriale[1] pubblicato sul New England Journal of Medicine, Vyas e colleghi riflettono sul concetto di “razza” e, in particolare, sul controverso e dibattuto ruolo che questo svolge in ambito medico. Come riportano gli autori, considerare la “razza” come un indicatore affidabile delle differenze genetiche tra le persone, sebbene le evidenze scientifiche indichino il contrario, è un’idea che si è introdotta in maniera insidiosa nella pratica medica e vi si è poi sedimentata. Come si è verificato questo processo? Un contributo determinante è stato fornito dagli algoritmi predittivi che sono stati addestrati ad aggiustare e compensare i loro risultati a seconda della razza e dell’etnia alla quale viene ricondotto il paziente. Le linee guida dell’American Heart Association (AHA), elaborate per prevedere il rischio di morte nei pazienti ammessi al pronto soccorso, rappresentano un esempio di questa dinamica. I loro algoritmi, infatti, assegnano sistematicamente tre punti in più – segnalando, quindi, una probabilità di rischio maggiore – a ciascun paziente identificato come “nonblack”. Il testo elaborato dall’AHA non riporta alcun razionale per questa compensazione. Tuttavia il testo, considerando tutti gli individui classificati come “black” meno esposti al tipo di rischio preso in esame, ha un impatto clinico non indifferente, in quanto guida le scelte cliniche dei cardiologi nella presa in carico dei pazienti. In virtù di questa dinamica, come riporta uno studio condotto nel 2019[2], per un paziente al pronto soccorso a causa di una insufficienza cardiaca, le probabilità di essere ammesso in cardiologia variano a seconda del colore della pelle.
Queste circostanze non sono limitate alla diagnostica. Anche la Society of Thoracic Surgeons (STS)[3] ha elaborato algoritmi per stimare il rischio di morte o di altre complicazioni che possono emergere durante la presa in carico di un paziente. Sebbene non ne sia noto il razionale, dati empirici osservati tra individui riconducibili a “razze” diverse sono stati inclusi negli algoritmi predittivi. Il risultato è che, ad esempio, il rischio di morte associato ad un bypass coronarico in un paziente con la pelle bianca è stimato di 0.492%. Lo stesso rischio in un paziente con la pelle nera arriva a 0.586%, con un incremento pari circa al 20%[4]. Ne consegue che, applicando pedissequamente il sistema predittivo basato sugli algoritmi, i pazienti con la pelle nera potrebbero essere allontanati dagli interventi chirurgici in quanto considerati maggiormente esposti a rischi. Esempi come questi non sembrano essere sporadici[5] ma, anzi, nella pratica clinica sono più frequenti di quello che si possa immaginare.
L’inclusione di dati, privi di razionale, relativi al colore della pelle dei pazienti negli algoritmi che orientano le decisioni in ambito clinico contribuisce a diffondere e a consolidare l’impiego di una pratica con un potenziale discriminatorio devastante. Infatti, in alcuni casi, le evidenze scientifiche a supporto dell’inclusione negli algoritmi di dati relativi all’appartenenza a “razze” non vengono nemmeno riportate, rendendo impossibile individuarle e verificarne la solidità. In altri casi il razionale è riportato, ma si riferisce frequentemente a dati contenenti “bias”[6] (pregiudizi) e, dunque, scarsamente affidabili.
Il problema dei “bias” nell’impiego dell’intelligenza artificiale è particolarmente radicato. Infatti, l’operato dell’intelligenza artificiale è strettamente legato alla qualità e alla rappresentatività dei dati che le sono stati forniti durante l’addestramento. Se i dati impiegati per l’addestramento sono errati, distorti, scarsamente rappresentativi della popolazione sulla quale poi andranno applicati– ad esempio dati che escludono determinate categorie in base a genere, età, caratteristiche fisiche – o contengono “bias”, questi difetti verranno assorbiti dalla macchina e amplificati nel suo operato con effetti discriminatori. Infatti, la disparità immagazzinata dall’intelligenza artificiale nel processo di apprendimento e poi sprigionata nell’elaborazione degli algoritmi può avere impatti significativi nei confronti delle popolazioni non rappresentate o rappresentate con dati distorti, come nel caso delle linee guida AHA per la predizione del rischio nei pazienti con insufficienza cardiaca. Gli algoritmi possono essere plasmati su una determinata categoria di popolazione e non essere sufficientemente rappresentativi di altre che si discostano dal campione scelto come “standard di riferimento”, perpetrando meccanismi discriminatori. Questo problema è particolarmente rilevante negli ambiti, come quello sanitario, sociale e giuridico, dove l’operato delle macchine può avere conseguenze dirette sulla vita delle persone. Se, con l’avvento dell’intelligenza artificiale, la presenza di “bias” è diventata particolarmente allarmante, occorre ricordare che questo problema in ambito sanitario non è stato introdotto dagli algoritmi. Infatti, lo sviluppo della medicina, fin dalle sue origini, ha seguito un approccio “male-biased”. I percorsi di ricerca e assistenza sono stati impostati seguendo come punto di riferimento lo standard maschile nella convinzione, basata su un errato pregiudizio scientifico, che il corpo femminile se ne discostasse solamente per l’apparato riproduttivo. In tale ottica, le varie fasi della ricerca che hanno portato allo sviluppo di nuovi farmaci o dispositivi sono state effettuate prevalentemente su individui di sesso maschile o su campioni provenienti da donatori di sesso maschile. Occorre, invece, evidenziare come le donne rispondano ai farmaci in modo differente rispetto agli uomini e le loro specificità devono essere prese in considerazione se il farmaco o il dispositivo in sperimentazione dovrà essere applicato a pazienti appartenenti a entrambe le categorie di sesso/genere. La sottorappresentazione del campione femminile nelle fasi di ricerca ha prodotto risultati sbilanciati che per aspetti fondamentali – come posologia, tossicologia, effetti collaterali – non è possibile applicare a quest’ultimo con la stessa efficacia, sicurezza e appropriatezza. La medicina di genere è, dunque, un esempio particolarmente opportuno per sottolineare come la rappresentatività del campione utilizzato sia fondamentale affinché i benefici possano essere applicati con giustizia ed equità (anche ben prima dell’avvento dell’intelligenza artificiale). Seguendo questa stessa logica è cruciale che i dati forniti alle macchine siano rappresentativi della popolazione che poi li andrà a utilizzare, altrimenti il rischio è che le disparità assorbite nell’addestramento vengano poi consolidate nell’operato della macchina e amplificate in larga scala. Occorre sottolineare che, nel caso delle intelligenze artificiali, il problema legato alla presenza di dati poco rappresentativi o inesatti è potenzialmente esacerbato dall’opacità dei processi che guidano le macchine. Può capitare, infatti, che neanche gli sviluppatori siano in grado di conoscere il percorso compiuto dalla macchina per giungere a una determinata conclusione. Questo effetto, chiamato “Black Box”, rende ancora più complesso individuare la presenza di errori, di dati distorti o errati nell’operato dell’intelligenza artificiale.
Il ruolo dell’intelligenza artificiale può essere prezioso in numerosi ambiti, come quello sanitario, ma il suo impiego non è privo di rischi. Considerare l’operato dell’intelligenza artificiale come esatto e affidabile a priori, in contrapposizione alla fallibilità del giudizio umano, è da annoverare fra i rischi più insidiosi. L’intelligenza artificiale si nutre di dati e di materialità e il suo operato può contenere errori, come nel caso dei “bias”, che, se applicati senza controllo, possono sprigionare un potenziale discriminatorio devastante, esacerbando disparità già esistenti nel tessuto sociale, economico e culturale. Acquisire consapevolezza del fatto che i processi seguiti dalle macchine nel loro operato non siano sempre neutri è fondamentale per contribuire ad uno sviluppo responsabile ed equo dello straordinario potenziale legato all’intelligenza artificiale.
Immagine: Foto di Ryoji Iwata su Unsplash
[1] Vyas DA et al, Hidden in Plain Sight – Reconsidering the Use of Race Correction in ClinicalAlgoritms, New England Journal of Medicine 2020; 383;9
[2] Eberly LA, Richterman A, Beckett AG, et al. Identification of racial inequities in access to specialized inpatient heart failure care at an academic medical center. Circ Heart Fail 2019; 12(11):e006214.
[3] Shahian DM, Jacobs JP, Badhwar V, et al. The Society of Thoracic Surgeons 2018 adult cardiac surgery risk models. 1. Background, design considerations, and model development. Ann Thorac Surg 2018; 105: 1411-8.
[4] Vyas DA et al, Hidden in Plain Sight – Reconsidering the Use of Race Correction in ClinicalAlgoritms, New England Journal of Medicine 2020; 383;9
[5] Vyas DA et al, Hidden in Plain Sight – Reconsidering the Use of Race Correction in ClinicalAlgoritms, New England Journal of Medicine 2020; 383;9
[6] Vyas DA et al, Hidden in Plain Sight – Reconsidering the Use of Race Correction in ClinicalAlgoritms, New England Journal of Medicine 2020; 383;9; Braun L. Breathing race into the machine: The surprising career of the spirometer from planation to genetics. Minneapolis: University of Minnesota Press, 2014; Vyas DA, Jones DS, Meadows AR, Diouf K, Nour NM, Schantz-Dunn J. Challenging the use of race in the vaginal birth after cesarean section calculator. Womens Health Issues 2019; 29: 201-4; Kowalsky RH, Rondini AC, Platt SL. The case for removing race from the American Academy of Pediatrics clinical practice guideline for urinary tract infection in infants and young children with fever. JAMA Pediatr 2020; 174: 229-30.