AMBITO: prevedere le diagnosi future nelle visite ambulatoriali utilizzando le cartelle cliniche elettroniche

Rapporti scientifici volume 13, numero articolo: 11005 (2023) Citare questo articolo

338 accessi

3 Altmetrico

Dettagli sulle metriche

Proponiamo un modello interpretabile e scalabile per prevedere le probabili diagnosi in un incontro sulla base di diagnosi passate e risultati di laboratorio. Questo modello ha lo scopo di aiutare i medici nella loro interazione con le cartelle cliniche elettroniche (EHR). Per raggiungere questo obiettivo, abbiamo raccolto retrospettivamente e reso anonimi i dati EHR di 2.701.522 pazienti presso la Stanford Healthcare in un periodo di tempo compreso tra gennaio 2008 e dicembre 2016. Un campione di pazienti basato sulla popolazione comprendente 524.198 individui (44% M, 56% F) con sono stati scelti più incontri con almeno un codice diagnostico frequente. È stato sviluppato un modello calibrato per prevedere i codici diagnostici ICD-10 in un incontro sulla base delle diagnosi passate e dei risultati di laboratorio, utilizzando una strategia di modellazione multi-etichetta basata sulla pertinenza binaria. Sono state testate la regressione logistica e le foreste casuali come classificatore di base e sono state testate diverse finestre temporali per aggregare le diagnosi e gli esami passati. Questo approccio di modellazione è stato confrontato con un metodo di deep learning basato su rete neurale ricorrente. Il modello migliore utilizzava la foresta casuale come classificatore di base e integrava caratteristiche demografiche, codici di diagnosi e risultati di laboratorio. Il modello migliore è stato calibrato e le sue prestazioni erano paragonabili o migliori rispetto ai metodi esistenti in termini di vari parametri, incluso un AUROC mediano di 0,904 (IQR [0,838, 0,954]) su 583 malattie. Nel prevedere la prima occorrenza di un'etichetta di malattia per un paziente, l'AUROC mediano con il modello migliore era 0,796 (IQR [0,737, 0,868]). Il nostro approccio di modellazione ha funzionato in modo paragonabile al metodo di deep learning testato, superandolo in termini di AUROC (p < 0,001) ma sottoperformando in termini di AUPRC (p < 0,001). L'interpretazione del modello ha mostrato che il modello utilizza caratteristiche significative ed evidenzia molte associazioni interessanti tra diagnosi e risultati di laboratorio. Concludiamo che il modello multi-etichetta funziona in modo paragonabile al modello di deep learning basato su RNN, offrendo allo stesso tempo semplicità e interpretabilità potenzialmente superiore. Sebbene il modello sia stato addestrato e convalidato su dati ottenuti da una singola istituzione, la sua semplicità, interpretabilità e prestazioni lo rendono un candidato promettente per l’implementazione.

L’adozione diffusa delle cartelle cliniche elettroniche (EHR) ha offerto un grande potenziale per l’apprendimento e l’applicazione da flussi di dati del mondo reale, gravando contemporaneamente sui professionisti con un lavoro d’ufficio di documentazione che sottrae alla cura diretta del paziente. I medici di base possono trascorrere fino a metà della loro giornata lavorativa interagendo con l'EHR1, riducendo il tempo dedicato alla cura del paziente2. Inoltre, il carico di documentazione può ridurre la soddisfazione dei medici e può addirittura portare al burnout3. Inoltre, i dati delle cartelle cliniche elettroniche sono spesso distorti4 e presentano dati mancanti e incompleti5,6. Qui cerchiamo di sviluppare metodi di apprendimento automatico per affrontare queste sfide chiave per sbloccare il potenziale delle cartelle cliniche elettroniche nell'ambito delle visite ambulatoriali.

L’obiettivo principale del nostro lavoro è prevedere le probabili diagnosi dei pazienti provenienti dall’anamnesi medica passata. Negli ultimi anni è stato sviluppato un vasto lavoro sulla previsione delle diagnosi e degli esiti dei pazienti a partire dall'anamnesi passata ottenuta dalle cartelle cliniche elettroniche (EHR)7,8,9. Il nostro lavoro si concentra esclusivamente sulle visite ambulatoriali. In termini di metodi, il lavoro recente si è concentrato fortemente sugli approcci al deep learning10; qui, tuttavia, proponiamo modelli classici di machine learning come la regressione logistica e le foreste casuali che offrono un'interpretabilità molto maggiore, nonché modularità e scalabilità. Infine, invece di concentrarci solo su una o poche malattie11, valutiamo questi modelli su un’ampia gamma di malattie a un livello adeguato di granularità, soggetto a vincoli di dati. Ciò è motivato dal fatto che i pazienti in ambito ambulatoriale spesso presentano più malattie croniche e acute e, sebbene i modelli di singole malattie siano molto utili, diventa rapidamente complicato mantenere e ottenere previsioni significative da più modelli disparati. Presentiamo un approccio unificato per modellare l'ampio ambito della pratica nella clinica ambulatoriale.