Una tecnica innovativa per addestrare Intelligenze artificiali

Team ICSC: il “Continual Learning” assicura privacy dei dati

Intelligenza-artificiale-G

Nel contesto dell’evoluzione degli strumenti di Intelligenza Artificiale, la disponibilità di dati in abbondanza risulta cruciale per addestrare gli algoritmi che ne stanno alla base. Tuttavia, la protezione della privacy e politiche di non diffusione dei dati spesso impediscono l’accesso a un numero sufficiente di esempi. Un recente studio, condotto da ricercatori del Centro Nazionale di Ricerca in High Performance Computing, Big Data e Quantum Computing delle Università di Torino e Catania, ha proposto un approccio innovativo per superare questa limitazione: l’apprendimento federato e decentralizzato. L’approccio federato e decentralizzato, denominato Continual Learning, è stato esaminato nell’addestramento di algoritmi per la diagnostica medica utilizzando raccolte di dati sanitari pubblici e ospedalieri.

Questa tecnica si è dimostrata altrettanto efficace quanto l’approccio basato su un unico insieme di dati (Data Lake). Inoltre, il Continual Learning offre una soluzione per mantenere riservati dati sensibili, trovando spazio in contesti applicativi che richiedono la privacy dei dati. Fino a oggi, l’apprendimento federato è stato sviluppato in modo centralizzato, distribuendo lo stesso algoritmo a tutti i nodi della rete e aggregando i risultati dell’addestramento in un modello globale. Tuttavia, questa strategia presenta limiti legati alla scalabilità delle reti e alla propagazione di errori. Qui entra in gioco l’innovativo approccio sviluppato dal Centro Nazionale ICSC. Questo approccio propone una suddivisione dell’allenamento in fasi, coinvolgendo singoli nodi della rete dedicata, e dei dati disponibili localmente. Il Continual Learning trasferisce l’algoritmo da un nodo all’altro, migliorando l’accuratezza attraverso un processo continuativo e incrementale. Un elemento centrale di questa tecnica è il trasferimento di dati sintetici tra i nodi per rinforzare l’apprendimento, evitando la condivisione di dati reali sensibili.

Secondo Marco Aldinucci, Co-leader dello Spoke 1 di ICSC e Professore dell’Università di Torino, il Continual Learning rappresenta un passo avanti rispetto all’apprendimento federato classico. Gli algoritmi non sono visti come entità statiche ma evolvono continuamente, riducendo il rischio di errori diffusi e di dati fasulli. L’approccio ha superato la fase sperimentale, dimostrando la sua efficacia nell’addestrare due diversi algoritmi di Intelligenza Artificiale per la diagnosi medica utilizzando dati provenienti da cinque ospedali. Non solo ha preservato la privacy dei dati utilizzati ma ha fornito prestazioni superiori rispetto all’approccio federato basato su un server centrale.

Questo risultato promettente apre la strada all’uso di questa tecnica in vari settori, tra cui la salute, il settore industriale e bancario, dove la protezione dei dati è di vitale importanza. Il Centro Nazionale ICSC ha già avviato ulteriori studi per applicare questa tecnica a patologie come il tumore al polmone, Parkinson e Alzheimer, dimostrando il suo potenziale nell’addestramento di algoritmi per riconoscere e diagnosticare patologie complesse. Questo studio contribuisce significativamente allo sviluppo di metodi innovativi che non solo permettono un apprendimento efficace delle Intelligenze Artificiali ma garantiscono anche la protezione della privacy dei dati, aprendo nuove frontiere per l’applicazione di tecnologie avanzate in settori critici della società.