cookies
OH J, MAKAR M, FUSCO C, ET AL.

A generalizable, data-driven approach to predict daily risk of Clostridium difficile infection at two large academic health Centers

Infect Control Hosp Epidemiol 2018;39:425-33

INTRODUZIONE

L'identificazione precoce dei pazienti ad alto rischio di infezione da Clostridium difficile (CDI) permette un trattamento più precoce, con esiti potenzialmente migliori, e l'implementazione di adeguate misure di controllo dell'infezione. Per questa ragione, molta ricerca è stata spesa nell'identificazione di modelli di stratificazione del rischio per la CDI, basati su un piccolo numero di fattori di rischio che mantengono la propria significatività in tutte le condizioni.

Tuttavia, vi sono evidenze che fattori specifici di ogni determinata struttura sanitaria possono rivestire un ruolo importante nel predire il rischio di CDI in un paziente e che un possibile approccio alternativo è quello di utilizzare un modello prognostico basato su tutti i dati strutturati presenti nella cartella clinica elettronica (EHR) di ogni singola istituzione.

In questo studio viene presentato un approccio basato sull'utilizzo dei dati delle EHR, raccolti durante la pratica clinica quotidiana in due diversi ospedali, per costruire un modello di stratificazione del rischio di CDI specifico per un singolo Centro. Viene riportata l'applicazione positiva di questo approccio a diverse popolazioni di pazienti, in differenti strutture e con differenti tipi di EHR, e dimostrato che esso può essere utilizzato per produrre modelli in grado di predire la comparsa di CDI diversi giorni prima della diagnosi clinica. L'approccio può essere esteso a diverse istituzioni al fine di produrre modelli predittivi locali e, in prospettiva, guidare gli interventi di prevenzione e cura dell'infezione più efficacemente.

METODI

La coorte in studio consisteva di pazienti adulti ricoverati presso lo University of Michigan Hospitals (UM) e il Massachusetts General Hospital (MGH), includendo tutti i ricoveri che erano iniziati e finiti nel periodo:

  • 1° gennaio 2010-1° gennaio 2016 all'UM;
  • 1° giugno 2012-1° giugno 2014 all'MGH.

L'analisi si è concentrata sui casi ospedalieri di CDI, escludendo quindi tutti i pazienti dimessi entro 3 giorni e quelli con test positivi per CDI nei primi 2 giorni di ricovero.

L'identificazione dei casi di CDI avveniva secondo protocolli di laboratorio simili (ma test a volte diversi) nelle due istituzioni:

  • i campioni clinici inviati per il test del C. difficile venivano inizialmente processati utilizzando un test immunoenzimatico (EIA) combinato per antigene e tossina A/B;
  • in caso di concordanza, i risultati venivano considerati positivi o negativi;
  • in caso di discordanza, veniva eseguito un test PCR per la presenza del gene tcdB.

Estrazione e preanalisi dei dati

Il modello prognostico era basato sui dati strutturati (nessun testo libero è stato preso in considerazione) contenuti nel sistema di EHR in uso nelle due istituzioni, una combinazione di software commerciale e sviluppato localmente.

Tutte le variabili sono state suddivise in 2 categorie principali:

  1. fisse (dati demografici, anamnesi, precedenti trattamenti e diagnosi);
  2. modificabili nel tempo (dati estratti giornalmente per ogni paziente: risultati di laboratorio, procedure, terapie, segni vitali).

Le variabili incluse nell'analisi, categoriche e continue, sono state trasformate in dati binari (ad es. una terapia: sì/no; un dato di laboratorio: normale/alto ecc.) e concatenate fra loro per ogni giorno-paziente. Questo approccio ha prodotto un vettore binario ad alta dimensione rappresentante ogni giorno di ricovero del paziente. I dati sono stati estratti fino al giorno del test positivo per C. difficile (non incluso) e al giorno della dimissione.


Metodi statistici

Tutti i ricoveri sono stati classificati a seconda che il paziente avesse ricevuto una diagnosi di CDI durante il ricovero o meno. Ogni giorno di ricovero dei pazienti con CDI è stato classificato come positivo, in caso contrario come negativo. Il compito del modello era di predire in anticipo rispetto alla diagnosi clinica a quale paziente sarebbe stata diagnosticata una CDI. È stata quindi applicata una regressione logistica regolarizzata per produrre modelli per ognuna delle due istituzioni: i modelli erano in grado di produrre uno score giornaliero di rischio per ogni paziente. Se lo score superava una specifica soglia, il paziente veniva classificato ad alto rischio.

Il modello è stato applicato a un "learning set" e poi a un "test set" di dati, suddivisi temporalmente. È stata quindi misurata la capacità del modello di predire i tassi effettivi di CDI. Sono stati misurati il valore predittivo positivo (PPV), la sensibilità, la specificità e il valore predittivo negativo. L'area sotto la curva ROC (AUROC) è stata calcolata sui "test data" per valutare la capacità discriminativa del modello.

RISULTATI

Il set di dati finali ha incluso 191.014 ricoveri all'UM e 65.718 all'MGH. All'interno di ogni popolazione, sono stati identificati 2.141 casi di CDI nosocomiale all'UM e 552 casi all'MGH. Dopo preanalisi, sono state considerate 4.836 variabili per i dati UM e 1.837 variabili per i dati MGH.

I "test set" finali per UM e MGH includevano 36.005 pazienti (360 casi di CDI) e 32.241 pazienti (237 casi), rispettivamente. Su questi set di dati, il modello predittivo di rischio raggiungeva valori di AUROC pari a 0,82 (IC 95% 0,80-0,84) e di 0,75 (IC 95% 0,73-0,78), rispettivamente per UM e MGH, dimostrando una buona capacità discriminativa.

Selezionando una soglia basata sul 95° percentile per classificare i pazienti a rischio, sono stati ottenuti i seguenti valori:

  • UM
    • sensibilità: 0,28
    • specificità: 0,95
    • PPV: 0,06
  • MGH
    • sensibilità: 0,23
    • specificità: 0,95
    • PPV: 0,04

    Utilizzando questa soglia, metà dei casi classificati correttamente come a rischio veniva identificata almeno 5 giorni prima del prelievo del campione positivo.

    Considerando i principali fattori predittivi identificati, alcune similitudini sono state notate fra le due istituzioni. Una storia di precedente CDI a 1 anno, ad esempio, era uno dei principali fattori di rischio, mentre l'età più giovane ed essere ricoverato in ostetricia erano protettivi. Tuttavia, in generale, i principali fattori protettivi e di rischio erano differenti nei due centri esaminati (Tabella).

    Tabella: Principali fattori di rischio e fattori protettivi identificati nelle due istituzioni (UM e MGH) e relativo coefficiente

    UM

    MGH

    Fattori di rischio:
    CDI nell'anno precedente il ricovero
    Reparto di Emergenza
    Tachicardia
    Cefoxitina
    Fluconazolo
    Ondansetron
    Proclorperazina
    Antifungini
    Antiemetici
    Rischio:
    0,53

    0,28
    0,27
    0,23
    0,21
    0,21
    0,21
    0,20
    0,20
    Fattori di rischio:
    Servizio di Medicina
    CDI nell'anno precedente il ricovero
    Propofol
    Età 77-89 anni
    Clorexidina
    Unità di terapia intensiva medica
    Metronidazolo
    Destrosio
    Cefepime
    Rischio:
    0,33
    0,27
    0,21
    0,21
    0,20
    0,18
    0,17
    0,17
    0,17
    Fattori protettivi:
    Warfarin
    Età 35-51 anni
    FANS non salicilici, antireumatici
    Idrocodone
    Neurologia
    Chirurgia ortopedica
    Ostetricia
    Ibuprofene
    Età 18-35 anni
    Rischio:
    -0,21
    -0,21
    -0,22
    -0,24
    -0,25
    -0,26
    -0,26
    -0,26
    -0,36
    Fattori protettivi:
    Ostetricia e ginecologia
    Pressione di colonizzazione dell'unità <0,001
    Unità chirurgica
    Età 41-56 anni
    Simvastatina
    Ossicodone
    Ostetricia
    Età 18-41 anni
    Docusato sodico
    Ricovero attraverso il reparto di Emergenza
    Rischio:
    -0,12
    -0,12

    -0,12
    -0,13
    -0,13
    -0,14
    -0,14
    -0,19
    -0,21
    -0,24

    DISCUSSIONE

    In questo studio è stato esplorato un approccio basato sui dati specifici locali per costruire automaticamente un modello di stratificazione del rischio di CDI in due grandi Centri accademici. Nonostante differenze sostanziali fra le due istituzioni, inclusi le popolazioni di pazienti, i criteri di esclusione, i diversi protocolli di test per C. difficile e la disponibilità di dati, la stessa tecnica si è dimostrata in grado di generare modelli istituzione-specifici che hanno identificato i pazienti ad alto rischio di CDI, ben in anticipo rispetto alla diagnosi clinica.

    Questi risultati evidenziano i vantaggi di un approccio automatizzato, in grado di incorporare migliaia di variabili, per costruire modelli specifici per ogni Ospedale, in contrasto a un approccio "one-size-fits-all". Le variabili identificate nelle due diverse istituzioni, ad esempio, sono solo parzialmente coincidenti e l'utilizzo dei dati di una non avrebbe potuto essere applicato all'altra. Al contrario, l'approccio flessibile proposto permette a un singolo Centro: 1) di personalizzare il modello sulla popolazione di interesse, i dati disponibili e l'outcome di interesse (ad es. CDI) e 2) di aggiornare il modello se alcuni di questi fattori dovessero cambiare nel tempo.

    Il PPV ottenuto era compreso fra il 4% e il 6% nelle due diverse istituzioni. È da sottolineare che un PPV maggiore poteva essere ottenuto scegliendo una soglia più alta (ad es. il 99° percentile), a spese tuttavia della sensibilità del modello. La gestione dell'equilibrio fra PPV e sensibilità dipende dai costi e benefici dell'intervento. Ogni istituzione potrà quindi personalizzare il proprio modello considerando attentamente i costi e i benefici del cambio di pratica clinica basato sulla predizione del rischio.

    L'approccio descritto in questo studio può essere usato per costruire modelli ospedale-specifici anche per altri patogeni e/o altri outcome, in tutti i casi in cui vi è ragione di credere che fattori paziente-specifici e istituzione-specifici giochino un ruolo importante. I modelli sviluppati potrebbero essere applicati in setting diversi per diversi scopi, sia nella pratica clinica sia in ambito di ricerca.

    COMMENTO

    a cura di Daniela Pasero
    Terapia Intensiva Cardiochirurgica, SC Anestesia e Rianimazione 1U; Dipartimento di Anestesia e Rianimazione; AO Città della Salute e della Scienza, Torino.

    In ambito infettivologico nosocomiale, l'individuazione di fattori di rischio certi o meglio ancora di uno score predittivo per lo sviluppo di un'infezione rappresenta un'esigenza inalienabile non tanto per il trattamento, quanto per la prevenzione o per la messa in atto di strategie pre-emptive appropriate. In questo ambito infatti, ancor più che in altri contesti, l'attuazione di strategie preventive in un contesto non opportuno (ad esempio, la somministrazione di terapia antibiotica profilattica) può rivelarsi dannosa tanto quanto la mancata identificazione di un paziente a rischio (ad esempio, con la selezione di patogeni multiresistenti) [1-3].

    Al di là del merito della dissertazione (in questo caso si parla di infezioni nosocomiali da Clostridium difficile), la domanda a cui si cerca di dare risposta è: "l'approccio utilizzato finora per predire un evento è da rivedere completamente?". Gli autori ritengono di sì, come precedentemente suggerito nello stesso ambito [4], e per testare la loro ipotesi dimostrano che lo stesso modello, predittivo per lo stesso tipo di evento, si comporta molto diversamente a seconda del contesto in cui viene sviluppato.

    Nell'articolo proposto da Oh et al. viene affrontato il tema dell'individuazione di un modello predittivo per le infezioni nosocomiali da Clostridium difficile (CD), in grado, secondo gli autori, di anticipare la diagnosi clinica di malattia di alcuni giorni. La novità introdotta riguarda le caratteristiche intrinseche del modello utilizzato, basato non sulla presenza o sull'identificazione di alcuni fattori di rischio, peculiarità di altri sistemi precedentemente proposti [4-8], ma sulla possibilità di far aderire tale modello alla realtà specifica della struttura in cui viene sviluppato e utilizzato. Tale approccio viene definito in gergo statistico "machine learning" (apprendimento automatico). In sostanza, l'algoritmo che è stato utilizzato è in grado di processare migliaia di dati relativi al ricovero dei pazienti per ricavare un modello predittivo di infezione da CD, rendendo generalizzabile alle diverse realtà ospedaliere non il sistema in sé, che presenterà fattori di rischio o fattori protettivi centro-specifici, quanto l'algoritmo per l'individuazione di tale modello. Nelle diverse realtà ospedaliere, spesso peculiari, sarà quindi possibile, con tale algoritmo, ricreare tale modello predittivo in modo "sartoriale".

    Da un punto di vista metodologico, lo studio è stato condotto in due diversi ospedali statunitensi, l'University of Michigan Hospitals (UM) e il Massachusetts General Hospital (MGH). Sono stati raccolti retrospettivamente i dati relativi a 6 e a 2 anni di ricovero, rispettivamente, per l'UM e l'MGH; la raccolta dati è stata corretta per possibili fattori confondenti (bias), quali, tra gli altri, la positività al CD entro 2 giorni dal ricovero o i pazienti dimessi entro 3 giorni dal ricovero. Sono state incluse variabili tempo-indipendenti, quali caratteristiche demografiche o dati anamnestici e variabili tempo-indipendenti relative essenzialmente al decorso clinico del paziente. Il modello predittivo è basato su una regressione logistica regolarizzata, in grado di determinare il rischio giornaliero per il singolo paziente di sviluppare un'infezione da CD, pesato sul fattore tempo [4]. I modelli così ottenuti sono stati sottoposti a una fase di apprendimento ("training set") e una fase di test basate su una suddivisione temporale, come previsto per le metodiche statistiche basate sul "machine learning". Il modello è stato ideato per fornire uno score di rischio giornaliero per ciascun ricovero.

    Il dataset finale ha compreso 191.014 pazienti ricoverati all'UM e 65.718 all'MGH, con 2.141 e 552 casi di infezione da CD nosocomiale, rispettivamente. Le variabili considerate dall'algoritmo per costruire il modello sono state 4.836 per l'UM e 1.837 per l'MGH. Con una AUROC di 0,82 e 0,75, rispettivamente, una specificità dello 0,95 e una bassa sensibilità per entrambi i Centri, il sistema si è rivelato in grado di predire di almeno 5 giorni la comparsa di un'infezione da CD clinicamente manifesta nella metà dei casi identificati come a rischio. La presenza di una recente infezione da CD è risultata essere un fattore di rischio rilevante in entrambe le istituzioni, così come la giovane età e il ricovero in Ostetricia si sono rivelati protettivi. Per il resto, fattori di rischio e predittivi sono risultati essere molto variabili nei due Centri.

    Al di là del risultato specifico riportato nello studio in questione, gli autori ritengono che un approccio di "machine learning" rappresenti un'evoluzione rispetto ai sistemi predittivi tradizionali in quanto può essere adattato alle caratteristiche specifiche di ogni Centro e aggiornato qualora queste, nello stesso Centro, vadano incontro a cambiamenti sostanziali.

    Le limitazioni di questo studio, dichiarate dagli autori, riguardano essenzialmente la sua natura retrospettiva, nonché alcune considerazioni riguardo l'utilizzo di modelli esclusivamente lineari, escludendo a priori possibili relazioni non lineari. Inoltre, l'applicabilità clinica di un modello così costituito dipende in gran parte dalle azioni conseguenti all'identificazione di un paziente come "a rischio".

    A nostro avviso, qualora tale approccio venisse validato in dataset prospettici appropriati, rappresenterebbe sicuramente un tassello a favore di una medicina sempre più in grado di adattarsi a esigenze centro-specifiche e di aderire alle esigenze dell'individuo. Per quanto riguarda nello specifico la possibilità di identificare il paziente maggiormente a rischio di infezione da CD, questo risultato deve essere interpretato con attenzione, poiché un utilizzo acritico potrebbe portare a un impiego non ponderato di agenti antimicrobici (in questo caso senza evidenza di infezione). Infine, la necessità di applicare l'algoritmo nel proprio Centro (e di validarlo in modo appropriato) comporta necessariamente la disponibilità di risorse informatiche e umane considerevoli per ottenere risultati attendibili e clinicamente rilevanti.

     

    Bibliografia

    1. Liu P, Li X, Luo M, et al. Risk factors for carbapenem-resistant Klebsiella pneumoniae infection: a meta-analysis. Microb Drug Resist 2017;24:190-8.
    2. Raman G, Avendano EE, Chan J, et al. Risk factors for hospitalized patients with resistant or multidrug-resistant Pseudomonas aeruginosa infections: a systematic review and meta-analysis. Antimicrob Resist Infect Control 2018;7:79.
    3. Tekin R, Dal T, Bozkurt F, et al. Risk factors for nosocomial burn wound infection caused by multidrug resistant Acinetobacter baumannii. J Burn Care Res 201435:e73-e80.
    4. Wiens J, Campbell WN, Franklin ES, et al. Learning data-driven patient risk stratification models for Clostridium difficile. Open Forum Infect Dis 2014 Jul 15;1(2):ofu045.
    5. Chandra S, Thapa R, Marur S, Jani N. Validation of a clinical prediction scale for hospital-onset Clostridium difficile infection. J Clin Gastroenterol 2014;48(5):419-22.
    6. Na X, Martin AJ, Sethi S, et al. A multi-center prospective derivation and validation of a clinical prediction tool for severe Clostridium difficile infection. PLoS ONE 2015;10(4):e123405.
    7. Press A, Ku B, McCullagh L, et al. Developing a clinical prediction rule for first hospital-onset Clostridium difficile infections: a retrospective observational study. Infect Control Hosp Epidemiol 2016;37:896-900.
    8. Zilberberg MD, Reske K, Olsen M, et al. Risk factors for recurrent Clostridium difficile infection (CDI) hospitalization among hospitalized patients with an initial CDI episode: a retrospective cohort study. BMC Infect Dis 2014;14:306.
     

    IT-NON-00043-ER-03/2021
    Servizio scientifico offerto alla Classe Medica da MSD Italia s.r.l. Questa pubblicazione riflette i punti di vista e le esperienze degli autori e non necessariamente quelli della MSD Italia s.r.l. Ogni prodotto menzionato deve essere usato in accordo con il relativo riassunto delle caratteristiche del prodotto fornito dalla ditta produttrice