L’articolo “Exploring the potential utility of AI large language models for medical ethics: an expert panel evaluation of GPT-4” di M. Balas et al., pubblicato sul Journal of Medical Ethics (10 nov. 2023), analizza lo studio condotto per valutare l’efficacia del modello linguistico avanzato GPT-4 nell’ambito dell’etica medica.
Sei esperti, provenienti da diverse aree di specializzazione, hanno valutato le risposte generate dal GPT-4 a otto casi di etica clinica:
- Conflitto materno-fetale: Una donna incinta di 22 settimane scopre gravi complicazioni nel feto e rifiuta l’aborto per motivi religiosi.
- Sospensione del supporto vitale in neonatologia: Disaccordo tra i genitori sulla sospensione del supporto vitale di due gemelli prematuri.
- Test genetici e scoperte incidentali: Un bambino testato per una malattia ereditaria presenta una scoperta incidentale di un’altra condizione genetica grave.
- Decisioni tutelari difficili: Un giovane con schizofrenia perde la capacità decisionale e il padre si scontra con il team medico sul trattamento.
- Divulgazione di errore/danno: Un paziente deve essere rioperato a causa di un bisturi dimenticato in un precedente intervento.
- Chi prende le decisioni sulle cure? Disaccordo tra figli su chi può prendere decisioni di trattamento per un genitore con problemi di salute mentale.
- Vivere a rischio: Una coppia anziana rifiuta gli esami di salute e sicurezza nonostante la non idoneità a vivere autonomamente.
- Morte medicalmente assistita: Un paziente terminale chiede l’assistenza medica per morire.
L’obiettivo principale dello studio era valutare se il modello AI fosse in grado di identificare, comprendere e articolare i dilemmi etici presentati in modo accurato e se le sue risposte fossero in linea con i principi generali della bioetica.
Le risposte sono state valutate secondo questi sei parametri:
- Pertinenza: La capacità del GPT-4 di identificare e affrontare le questioni etiche chiave di ciascuno scenario.
- Ragionamento: La coerenza logica e la struttura del ragionamento presentato nelle risposte di GPT-4.
- Profondità: L’esplorazione da parte di GPT-4 di varie dimensioni dei dilemmi etici.
- Chiarezza tecnica: La chiarezza e comprensibilità delle risposte di GPT-4 per gli esperti di etica.
- Chiarezza non tecnica: La chiarezza delle risposte di GPT-4 per chi non è esperto di etica.
- Accettabilità: L’allineamento delle posizioni di GPT-4 con i principi generali di bioetica e la loro giustificazione.
Le statistiche descrittive per ciascuno dei sei criteri della valutazione su tutti gli otto casi etici danno come valutazione media complessiva 4,1 su 5. Il punteggio più alto (4,7/5) è stato raggiunto per il caso 5 “Divulgazione di errore/danno”, mentre il punteggio medio più basso (3,8/5) è stato ottenuto nel caso 4 “Decisioni tutelari difficili”.
Sebbene l’LLM dimostri abilità nell’identificare problemi etici, ha evidenziato limiti nel trattare le complessità in modo approfondito e sensibile.
Lo studio conclude affermando che GPT-4 può essere utile nella gestione dei dilemmi etici, ma deve essere integrato con l’esperienza umana e l’intelligenza emotiva per affrontare al meglio le questioni della bioetica medica.