Machine Learning e dati medici squilibrati: come migliorare l’analisi delle prestazioni

Gli ultimi progressi nella tecnologia sanitaria e nel machine learning (ML) si sono rivelati importantissimi per le scienze mediche, perché capaci di prevedere in maniera efficiente diverse patologie, soprattutto croniche, di monitorare i pazienti e fornire un supporto al processo decisionale clinico. Tuttavia, sebbene questi progressi abbiano dato accesso a moltissimi data set medici, sono necessarie ulteriori ricerche per ridurre ed evitare la previsione ancora troppo imprecisa di questa tecnologia, che potrebbe rivelarsi inaspettatamente pericolosa per il paziente.


Un problema ampiamente riscontrato e studiato è quello legato allo squilibrio di classe, un fenomeno in cui la classe di maggioranza (pazienti negativi/sani) supera di un fattore significativo la classe di minoranza (pazienti positivi/malati).
Generalmente l’utilizzo di algoritmi ML in situazioni di classificazioni binarie presuppone una distribuzione uniforme delle classi, ma, se ciò non avviene, il modello risulta dominato da campioni della classe maggioritaria e ne perde la validità.


Spesso vengono utilizzate le tecniche di apprendimento sensibile ai costi e di ricampionamento per porre rimedio agli squilibri e, in questo studio, i ricercatori si sono concentrati sullo sviluppo di classificatori robusti e sensibili ai costi modificando le funzioni-obiettivo di alcuni algoritmi chiave (es. regressione logistica, albero decisionale, boosting a gradiente estremo e foresta casuale) utilizzati per prevedere in modo efficiente la diagnosi medica; questo tipo di approccio non altera la distribuzione originale dei dati.


Prima di tutto, perciò, sono state implementate e migliorate le versioni standard di questi algoritmi per fornire una linea di base per il confronto delle prestazioni; poi, sono stati sviluppati i loro corrispondenti algoritmi sensibili ai costi. Per gli approcci proposti, quindi, non è necessario cambiare la distribuzione dei dati originali poiché gli algoritmi modificati considerano la distribuzione delle classi squilibrata già all’inizio dell’ottenimento dei dati, raggiungendo così prestazioni più affidabili rispetto a quando i dati vengono ricampionati.


La ricerca è stata effettuata su un set di dati di apprendimento pubblico per diabete, cancro al seno, cancro del collo dell’utero e malattie renali croniche, da cui è emerso il potenziale dell’apprendimento sensibile ai costi nella previsione di dati medici squilibrati; i tassi di precisione e richiamo per le malattie renali sono rispettivamente migliorati da 0,972 e 0,946 (su 1.000) a 0,990 e 1.000 perfetti.



Tuttavia, rimane ancora aperta la possibilità per futuri lavori di ricerca di impiegare un approccio ibrido combinando le tecniche di apprendimento e le tecniche di ricampionamento sensibili ai costi a tecniche di campionamento sintetico adattivo e poi confrontando le prestazioni con casi in cui le prime sono state utilizzate individualmente.


Fonte: Informatics in Medicine Unlocked

IT-NON-05823-W-11/2023