L’impatto di annotazioni umane incoerenti sul processo decisionale clinico guidato dall’intelligenza artificiale

npj Medicina Digitale volume 6, numero articolo: 26 (2023) Citare questo articolo

3210 accessi

5 citazioni

18 Altmetrico

Dettagli sulle metriche

Nello sviluppo di modelli di apprendimento supervisionato, gli esperti del dominio vengono spesso utilizzati per fornire le etichette delle classi (annotazioni). Le incoerenze nelle annotazioni si verificano comunemente quando anche esperti clinici di grande esperienza annotano lo stesso fenomeno (ad esempio, immagine medica, diagnostica o stato prognostico), a causa di pregiudizi, giudizi e errori di esperti intrinseci, tra gli altri fattori. Sebbene la loro esistenza sia relativamente ben nota, le implicazioni di tali incoerenze sono ampiamente sottovalutate nei contesti del mondo reale, quando l’apprendimento supervisionato viene applicato a dati etichettati come “rumorosi”. Per far luce su questi problemi, abbiamo condotto esperimenti e analisi approfonditi su tre set di dati di unità di terapia intensiva (ICU) del mondo reale. Nello specifico, i singoli modelli sono stati costruiti a partire da un set di dati comune, annotato in modo indipendente da 11 consulenti di terapia intensiva del Glasgow Queen Elizabeth University Hospital, e le stime delle prestazioni del modello sono state confrontate attraverso la convalida interna (Fleiss' κ = 0,383 ovvero, giusto accordo). Inoltre, un'ampia convalida esterna (su set di dati sia statici che di serie temporali) di questi 11 classificatori è stata effettuata su un set di dati esterno HiRID, dove è stato riscontrato che le classificazioni dei modelli avevano bassi accordi a coppie (κ di Cohen medio = 0,255, ovvero accordo minimo) . Inoltre, tendono a essere più in disaccordo sulle decisioni di dimissione (κ di Fleiss = 0,174) che sulla previsione della mortalità (κ di Fleiss = 0,267). Date queste incoerenze, sono state condotte ulteriori analisi per valutare le attuali migliori pratiche per ottenere modelli gold standard e determinare il consenso. I risultati suggeriscono che: (a) potrebbe non esserci sempre un “super esperto” in contesti clinici acuti (utilizzando le prestazioni del modello di validazione interno ed esterno come proxy); e (b) la ricerca standard del consenso (come il voto a maggioranza) porta costantemente a modelli non ottimali. Ulteriori analisi, tuttavia, suggeriscono che la valutazione dell'apprendimento delle annotazioni e l'utilizzo solo di set di dati annotati "apprendibili" per determinare il consenso raggiungono modelli ottimali nella maggior parte dei casi.

L'apprendimento automatico supervisionato classico presuppone che le etichette degli esempi di formazione siano tutte corrette, ignorando la presenza di rumore di classe e imprecisioni1. Nel settore sanitario, questo presupposto potrebbe non essere valido anche quando medici di grande esperienza forniscono queste etichette, a causa del grado di rumore, della soggettività dell’osservatore e dei pregiudizi coinvolti. Se trascurate nell'addestramento di un sistema di supporto alle decisioni di machine learning (ML-DSS), le incoerenze delle annotazioni possono comportare una versione arbitrariamente parziale della verità fondamentale e conseguenti conseguenze cliniche imprevedibili, comprese classificazioni errate2,3,4.

Idealmente, le etichette di classe vengono ottenute attraverso un processo di acquisizione della conoscenza, che implica la scelta del “gold standard” appropriato su cui basare queste etichette di classe di verità, per costruire un sistema basato sulla conoscenza (KBS). In ambito sanitario e biomedico, per fornire queste etichette vengono spesso utilizzati esperti del settore clinico5. Tuttavia, in molte aree cliniche, queste verità fondamentali sono difficili da trovare e definire, a causa delle incertezze fisiopatologiche, diagnostiche e prognostiche inerenti alla medicina2,6.

La psicologia cognitiva ha dimostrato sperimentalmente che gli esseri umani (e quindi gli esperti) commettono degli “scivolamenti”, ad esempio, a causa del sovraccarico cognitivo e dei pregiudizi. D’altro canto, il campo dei sistemi esperti e del KBS presuppone che per (la maggior parte) delle discipline esistano esperti altamente qualificati e “senza errori”, e il compito chiave è come tali esperti possano essere identificati oggettivamente o soggettivamente. Tuttavia, prove crescenti provenienti dalla letteratura mostrano che, su insiemi comuni di compiti (ad esempio, classificazione), gruppi di esperti spesso sono significativamente in disaccordo tra loro5,7,8. Nel 2021, Kahneman et al.9 hanno pubblicato un importante contributo su questo argomento chiamato Rumore: un difetto nel giudizio umano, che dimostra in modo convincente che colleghi esperti in molte discipline differiscono. Questi autori9 fanno distinzioni tra giudizi e opinioni dove con i primi ci si aspetta che gli esperti forniscano una risposta da un insieme (fisso) di alternative, mentre le opinioni sono molto più aperte. In questo articolo ci occupiamo di compiti che richiedono che i vari esperti esprimano giudizi.

0.90 (Almost Perfect)./p> 0.7). Figure 7 shows TMV (F1 micro = 0.438) performs significantly better than MV (F1 micro = 0.254). In fact, TMV outperforms almost all the consultant models. This indicates it is important to assess learnability of each domain expert’s judgments before creating a consensus, because poorly learnable (expert) judgments often lead to poor performances./p> 1–4, CL3 = > 4./p> 3-<4, CL3 = ≥ 4./p> 0.7)./p> 2-< 4, CL3 = ≥ 4, see Supplementary Fig. 1 for these results./p> 0.7), the differing feature importance distributions reflect the different rationales and decision-making processes between annotators. For certain annotators (C4), we can infer Noradrenaline is the most important feature when deciding to annotate a label ‘A’ classification. For some (C2), FiO2 is most important when making this classification. For others (C10), the rationale is more balanced on Noradrenaline and FiO2./p>

There are multiple statistics used to measure IAA, including Cohen’s κ, Fleiss’ κ and Krippendorff’s α. All three statistics were calculated within Python 3.0 using: cohen_kappa_score from sklearn.metrics60, fleiss_kappa from statsmodels.stats.inter_rater61, simpledorff (2020)." href="/articles/s41746-023-00773-3#ref-CR62" id="ref-link-section-d72589267e1597"62./p> 0.90 (Almost Perfect)32./p> 1–4, CL3 = > 4./p> 3-<4, CL3 = ≥ 4./p> 2-<4, CL3 = ≥ 4./p>

3.0.CO;2-5" data-track-action="article reference" href="https://doi.org/10.1002%2F%28SICI%291097-0258%2820000229%2919%3A4%3C453%3A%3AAID-SIM350%3E3.0.CO%3B2-5" aria-label="Article reference 53" data-doi="10.1002/(SICI)1097-0258(20000229)19:43.0.CO;2-5"Article CAS PubMed Google Scholar /p>

(2020)./p>