L’intelligenza artificiale non discrimina, i dati sì
A cura di Roberto Carrozzo, Head of Intelligence & Data Minsait
Qual è il motore dell’intelligenza artificiale (IA)? Cosa si nasconde dietro le quinte di ChatGPT, Dall-E, Bard, gli algoritmi di raccomandazione? È possibile che i risultati degli algoritmi di intelligenza artificiale siano sessisti, razzisti o, più in generale, discriminatori? Sono domande legittime che meritano una risposta esaustiva soprattutto al fine di chiarire alcuni meccanismi di funzionamento base dell’intelligenza artificiale.
Nell’ultimo anno abbiamo assistito alla ribalta di servizi come ChatGPT e Midjourney che hanno fatto toccare con mano a tutti (anche a quei parenti che ci chiedono aiuto per cambiare suoneria al telefono) le potenzialità e le opportunità dell’intelligenza artificiale. Ma oltre alle novità scintillanti che arrivano dalla Silicon Valley, per avere una scala del fenomeno, basti considerare che anche in Italia lo scorso anno è stato un anno record per quanto riguarda gli investimenti in IA: il mercato dell’intelligenza artificiale ha raggiunto nel nostro paese i 500 milioni di euro, facendo registrare una crescita del 32% rispetto all’anno precedente (Osservatorio Artificial Intelligence del Politecnico di Milano).
Ma torniamo alle nostre domande. Il motore dell’intelligenza artificiale sono i dati. Gli algoritmi di IA, per funzionare, hanno bisogno di un ampio set di dati per imparare a svolgere mansioni specifiche. Queste mansioni possono riguardare, per fare un esempio, il riconoscimento di immagini o la produzione di testi. Attraverso i training data l’IA impara a riconoscere un gatto da un cane, impara a scrivere un’email o una ricetta. Questi dati possono essere di diverse tipologie: strutturati, ad esempio provenienti da un file Excel in cui ogni campo ha uno scopo definito; non strutturati, ad esempio immagini, testi, video o audio, che non seguono una struttura chiara o non hanno una definizione univoca.
Anche le pagine web possono essere fonte di training data e possono rivelarsi particolarmente utili per algoritmi di Natural Language Processing ovvero in grado di comprendere e generare un testo in forma di linguaggio naturale. Di questa categoria fanno parte, ad esempio, i Large Language Model (LLM) come ChatGPT di OpenAI e Bard di Google. Ma, sebbene fosse una pratica piuttosto diffusa quella di addestrare i LLM con dati presi da siti web, ultimamente piattaforme come Reddit, X, Stack Overflow, stanno aumentando i costi per accedere ai loro contenuti, mentre siti d’informazione come il New York Times minacciano di portare in tribunale OpenAI per aver utilizzato i propri contenuti per addestrare ChatGPT.
Queste informazioni sono la materia prima grazie alla quale i software di intelligenza artificiale possono funzionare, e come ogni materia prima questi dati devono avere un costo per chi li usa e ne ricava un profitto. Proprio per questo motivo è possibile che in futuro sempre più piattaforme sfrutteranno a proprio vantaggio il business model di fornire dati a pagamento a chi li utilizzerà per addestrare i propri modelli di intelligenza artificiale.
Ma arriviamo all’ultima questione: è possibile che l’intelligenza artificiale fornisca output discriminatori? La risposta è sì, ma la responsabilità di ciò non riguarda l’algoritmo di intelligenza artificiale in sé, bensì i dati sui quali è stato addestrato.
E sono proprio i training data che creano bias discriminatori, per una duplice ragione: in primis perché riflettono dati reali della società che purtroppo è di per sé discriminatoria, e questo ha ripercussioni sulle informazioni che genera l’algoritmo; in secondo luogo, può capitare che il team che sviluppa un sistema di intelligenza artificiale selezioni dati sbilanciati, incompleti, non inclusivi, andando a pregiudicare gli output dell’algoritmo che saranno sempre basati su quelle informazioni faziose.
Possiamo fare due esempi concreti che riguardano in particolare la discriminazione di genere. Il primo concerne algoritmi di IA utilizzati per la selezione e l’assunzione del personale: se un algoritmo viene addestrato su dati di un settore storicamente dominato dagli uomini, questo potrebbe favorire candidati maschi a dispetto delle candidate donne. Il secondo invece riguarda la prevenzione di malattie, che può arrivare a mettere a rischio la salute delle donne: negli Stati Uniti, il Department of Veterans Affairs aveva sviluppato con Deepmind un algoritmo per la predizione dell’insufficienza renale, che però funzionava meglio su persone di sesso maschile perché era stato allenato prevalentemente con dati provenienti da persone di sesso maschile.
Sono temi molto delicati attorno ai quali si sviluppano anche i primi tentativi di regolamentazione per favorire sistemi di IA che siano conformi ai valori democratici e alle leggi in vigore, basti pensare all’AI Act approvato lo scorso giugno dal Parlamento europeo. Ma la regolamentazione, per quanto importante, è solo un tassello del puzzle. Sarà prioritario sviluppare un dibattito etico su queste tematiche coinvolgendo gli attori pubblici e privati che contribuiscono al futuro dell’intelligenza artificiale. Sarà fondamentale fornire gli strumenti alle persone per sviluppare consapevolezza sul funzionamento e sulle opportunità offerte dagli algoritmi di IA. Stiamo vivendo una fase storica che sarà ricordata come il crocevia fondamentale per quello che sarà il futuro dell’intelligenza artificiale e solo attraverso la consapevolezza, il dibattito e l’impegno di tutti gli attori coinvolti potremo sviluppare sistemi di intelligenza artificiale equi e non discriminatori.