banner

Nouvelles

Sep 29, 2023

Amélioration de la qualité de l'intelligence artificielle clinique : vers une surveillance et une mise à jour continues des algorithmes d'IA dans les soins de santé

npj Digital Medicine volume 5, Article number: 66 (2022) Citer cet article

13 000 accès

19 Citations

49 Altmétrique

Détails des métriques

Les algorithmes d'apprentissage automatique (ML) et d'intelligence artificielle (IA) ont le potentiel de tirer des enseignements des données cliniques et d'améliorer les résultats pour les patients. Cependant, ces systèmes très complexes sont sensibles aux changements de l'environnement et susceptibles de décliner leurs performances. Même après leur intégration réussie dans la pratique clinique, les algorithmes ML/AI doivent être surveillés et mis à jour en permanence pour garantir leur sécurité et leur efficacité à long terme. Pour amener l'IA à maturité dans les soins cliniques, nous préconisons la création d'unités hospitalières chargées de l'assurance qualité et de l'amélioration de ces algorithmes, que nous appelons des unités "AI-QI". Nous discutons de la manière dont les outils utilisés depuis longtemps dans l'assurance qualité et l'amélioration de la qualité des hôpitaux peuvent être adaptés pour surveiller les algorithmes ML statiques. D'autre part, les procédures de mise à jour continue des modèles sont encore naissantes. Nous soulignons les considérations clés lors du choix entre les méthodes existantes et les opportunités d'innovation méthodologique.

L'utilisation de l'intelligence artificielle (IA) et de l'apprentissage automatique (ML) dans le domaine clinique s'est considérablement développée au cours des dernières décennies, avec de nombreux exemples en imagerie médicale, en cardiologie et en soins aigus1,2,3,4,5,6. En effet, la liste des algorithmes basés sur l'IA/ML approuvés pour une utilisation clinique par la Food and Drug Administration (FDA) des États-Unis continue de s'allonger à un rythme rapide7. Malgré le développement accéléré de ces algorithmes médicaux, leur adoption en clinique a été limitée. Les défis rencontrés sur le chemin d'une intégration réussie vont bien au-delà de la phase initiale de développement et d'évaluation. Étant donné que les algorithmes ML dépendent fortement des données, une préoccupation majeure est que leurs performances dépendent fortement de la manière dont les données sont générées dans des contextes spécifiques, à des moments spécifiques. Il peut être difficile d'anticiper le comportement de ces modèles dans des conditions réelles au fil du temps, car leur complexité peut masquer les modes de défaillance potentiels8. Actuellement, la FDA exige que les algorithmes ne soient pas modifiés après approbation, ce que nous qualifions de "verrouillé". Bien que cette politique empêche l'introduction de mises à jour de modèles délétères, les modèles verrouillés sont susceptibles de diminuer leurs performances au fil du temps dans des environnements hautement dynamiques tels que les soins de santé. En effet, beaucoup ont documenté la dégradation des performances du ML en raison de la composition des cas de patients, des modèles de pratique clinique, des options de traitement, etc.9,10,11.

Pour garantir la fiabilité et l'efficacité à long terme des algorithmes cliniques basés sur l'IA/ML, il est essentiel que nous établissions des systèmes de surveillance et de maintenance régulières12,13,14. Bien que l'importance d'une surveillance et d'une mise à jour continues ait été reconnue dans un certain nombre d'articles récents15,16,17, la plupart des articles fournissent des détails limités sur la manière de mettre en œuvre de tels systèmes. En fait, les travaux les plus similaires peuvent être des articles récents documentant la création de systèmes ML prêts pour la production dans les entreprises Internet18,19. Néanmoins, le milieu de soins diffère en ce que les erreurs ont des répercussions plus graves, le nombre d'échantillons est plus petit et les données ont tendance à être plus bruyantes.

Dans ce travail, nous examinons les efforts existants d'assurance qualité (AQ) et d'amélioration de la qualité (AQ) des hôpitaux20,21,22 comme modèle pour concevoir des initiatives similaires pour les algorithmes d'IA clinique, que nous appelons AI-QI. En établissant des parallèles avec les pratiques cliniques standard d'AQ, nous montrons comment des outils bien établis de contrôle statistique des processus (SPC) peuvent être appliqués à la surveillance d'algorithmes cliniques basés sur l'IA. En outre, nous décrivons un certain nombre de défis uniques lors de la surveillance des algorithmes d'IA, notamment le manque de données de vérité au sol, la censure liée au traitement induite par l'IA et la haute dimensionnalité des données. La mise à jour des modèles est une tâche totalement nouvelle, avec de nombreuses possibilités d'innovations techniques. Nous décrivons les considérations clés et les compromis lors de la sélection entre les procédures de mise à jour du modèle. Une mise en œuvre efficace de l'AI-QI nécessitera une collaboration étroite entre les cliniciens, les administrateurs d'hôpitaux, les professionnels des technologies de l'information (TI), les biostatisticiens, les développeurs de modèles et les organismes de réglementation (Fig. 1). Enfin, pour étayer notre discussion, nous utiliserons l'exemple d'un hypothétique système d'alerte précoce basé sur l'IA pour les épisodes d'hypotension aiguë (AHE), inspiré de l'indice de prédiction d'hypotension Acumen d'Edwards approuvé par la FDA23.

Pour garantir la sécurité et l'efficacité continues des algorithmes basés sur l'IA déployés dans l'hôpital, les établissements auront besoin de processus rationalisés pour surveiller en permanence les performances du modèle, communiquer les dernières mesures de performance aux utilisateurs finaux et réviser le modèle ou même suspendre son utilisation en cas de dégradation importante. dans la performance est observée. Compte tenu de sa nature transversale, l'AI-QI nécessite une collaboration étroite entre les cliniciens, les administrateurs d'hôpitaux, les professionnels des technologies de l'information (TI), les développeurs de modèles, les biostatisticiens et les organismes de réglementation.

Tel que défini par le Center for Medicare and Medicaid Services, l'amélioration de la qualité (QI) est le cadre utilisé pour améliorer systématiquement les soins grâce à l'utilisation de processus et de structures normalisés afin de réduire les variations, d'obtenir des résultats prévisibles et d'améliorer les résultats pour les patients, les systèmes de santé et organisations. Dans cette section, nous décrivons pourquoi les algorithmes d'IA clinique peuvent échouer et pourquoi un processus AI-QI structuré et intégré est nécessaire.

En termes simples, les algorithmes basés sur l'IA atteignent une précision prédictive élevée en détectant les corrélations entre les variables des patients et les résultats. Par exemple, un modèle qui prévoit une AHE imminente peut s'appuyer sur des modèles de signaux physiologiques qui se produisent généralement avant un tel événement, comme une tendance générale à la baisse de la pression artérielle et une augmentation de la fréquence cardiaque. Les modèles basés sur la corrélation ont tendance à avoir une bonne validité interne : ils fonctionnent bien lorsque la population cible est similaire aux données d'apprentissage. Cependant, lorsque l'environnement clinique est très dynamique et que les populations de patients sont hétérogènes, un modèle qui fonctionne bien dans une période donnée ou dans un hôpital peut échouer dans un autre. Un exemple récent est l'émergence de COVID-1924 documenté une baisse de performance dans un algorithme ML pour déterminer quels patients étaient à haut risque d'admission à l'hôpital en fonction de leur présentation au service des urgences (ED) qui reposait sur des variables d'entrée telles que la fréquence respiratoire et le mode d'arrivée, qui ont été considérablement touchés par la propagation du COVID-19.

Selon la littérature sur l'IQ, la variabilité des performances au niveau du système est due à une variation de « cause commune » ou de « cause spéciale ». La variation de cause commune fait référence à la variabilité prévisible et inévitable du système. Poursuivant avec notre exemple AHE, un algorithme qui prédit les futurs niveaux de pression artérielle moyenne (MAP) est susceptible de faire des erreurs en raison de la variabilité inhérente du paramètre physiologique ; cette erreur est acceptable tant qu'elle correspond aux spécifications du fabricant, par exemple, les MAP observées et prévues doivent être inférieures à 5 mmHg 95 % du temps. Avant le déploiement du modèle, les développeurs peuvent calibrer le modèle et caractériser la variation de cause commune à l'aide de données indépendantes25,26,27. Les développeurs de modèles peuvent également intégrer des sources connues de variation de cause commune dans le modèle pour améliorer sa généralisabilité28,29.

D'autre part, la variation due à une cause spéciale représente un changement inattendu dans le système. Dans notre exemple AHE, cela peut se produire si l'hôpital suit de nouvelles directives pour la gestion de l'hypotension, ce qui entraîne un changement dans l'association entre les niveaux futurs de MAP et l'historique des médicaments. En utilisant la terminologie statistique, les variations de cause spéciale sont des baisses de performances inattendues dues à des changements dans la distribution conjointe des entrées du modèle X et de la ou des variables cibles Y, qui sont plus succinctement appelées changements de distribution ou d'ensemble de données30. En général, les changements de distribution peuvent être classés en fonction des relations qui ont changé dans les données, comme les changements uniquement dans la distribution des variables d'entrée X par rapport aux changements dans la distribution conditionnelle de Y étant donné X.

Différents types de changements de distribution doivent être traités différemment. Parfois, des changements de distribution imminents peuvent être anticipés, tels que des changements de politique bien communiqués à l'échelle de l'hôpital. Pour rester informé de ces types de changements, les efforts d'AI-QI peuvent adopter une approche proactive en se tenant au courant des événements actuels de l'hôpital et en s'abonnant aux listes de diffusion. Les administrateurs d'hôpitaux et les cliniciens peuvent aider à interpréter l'impact que ces changements auront sur les performances de l'algorithme ML. D'autres changements de distribution ne sont pas annoncés et peuvent être plus subtils. Pour détecter ces changements le plus rapidement possible, il faudra des procédures de surveillance des performances de l'algorithme ML.

La variation due à des causes particulières peut également être caractérisée comme soutenue ou isolée (c'est-à-dire celles qui affectent une seule observation). Dans ce manuscrit, l'accent est mis sur le premier, qui peut dégrader les performances pendant des périodes de temps importantes. La détection de tels changements au niveau du système ne peut généralement pas être accomplie en analysant chaque observation individuellement et nécessite plutôt l'analyse d'un flux d'observations. En revanche, les erreurs isolées peuvent être considérées comme des valeurs aberrantes et peuvent être ciblées à l'aide des cartes de contrôle de Shewhart31, une technique populaire en SPC, ainsi que des méthodes générales de détection des valeurs aberrantes32.

Lorsque les raisons d'une baisse des performances du système ne sont pas claires, le diagramme de cause à effet, également appelé diagramme en arête de poisson ou diagramme d'Ishikawa, est un outil formel de l'AQ qui peut aider à démêler les causes potentielles31. La "tête" du diagramme est l'effet, qui est une baisse des performances du modèle. Les causes potentielles sont répertoriées sur les branches, regroupées par catégories principales. Nous montrons un exemple de diagramme de cause à effet pour un système d'alerte précoce AHE à la Fig. 2. Les diagrammes de cause à effet dans QI partagent de nombreuses similitudes avec les graphes acycliques dirigés causaux de la littérature sur l'inférence causale33. En effet, une idée récente développée indépendamment par la communauté ML consiste à utiliser des diagrammes de causalité pour comprendre comment différents types de changements d'ensembles de données peuvent avoir un impact sur les performances du modèle29,34.

Chaque branche représente une catégorie de causes potentielles. L'effet est défini comme la performance du modèle, qui est mesurée par l'aire sous la courbe caractéristique de fonctionnement du récepteur (AUC).

D'une manière générale, nous pouvons catégoriser les causes potentielles d'une baisse de performance en (i) changements dans la distribution de la variable cible Y, (ii) changements dans la distribution des entrées du modèle X, et (iii) changements dans la relation entre X et Y En utilisant la terminologie statistique, (i) et (ii) font référence à des changements dans la distribution marginale de Y et X, respectivement, et (iii) font référence à des changements dans la distribution conditionnelle de Y∣X ou X∣Y. Ces causes potentielles peuvent encore être divisées en fonction de sous-groupes sémantiquement significatifs des entrées du modèle, tels que des signaux physiologiques mesurés à l'aide du même appareil. Alors qu'il convient de décrire les changements relatifs à chaque variable d'entrée, une attention particulière doit être accordée à celles qui ont une importance élevée pour les caractéristiques, car les changements dans ces caractéristiques sont plus susceptibles d'induire des changements plus importants dans les performances.

L'objectif de la surveillance de l'IA est de déclencher une alarme en cas de variation due à des causes particulières et d'aider les équipes à identifier les corrections nécessaires au modèle ou au processus de génération/collecte de données. Les variations de cause commune et de cause spéciale peuvent entraîner une baisse des performances. Des procédures statistiques sont donc nécessaires pour faire la distinction entre les deux. Nous présentons ici les cartes de contrôle statistique, un outil standard de SPC pour aider à visualiser et à détecter différents types de quarts de travail. Cette section se concentre sur les modèles verrouillés ; nous discuterons des algorithmes évolutifs plus tard.

Étant donné un flux d'observations, une carte de contrôle typique trace une statistique récapitulative dans le temps et affiche des limites de contrôle pour indiquer la plage normale de valeurs pour cette statistique. Lorsque la statistique du graphique dépasse les limites de contrôle, une alarme est déclenchée pour indiquer l'existence probable d'une variation due à une cause spéciale. Après le déclenchement d'une alarme, l'hôpital doit enquêter sur la cause première et déterminer si des mesures correctives doivent être prises et, le cas échéant, lesquelles. Cela nécessite une collaboration étroite de nombreuses entités, y compris le développeur du modèle d'origine, les prestataires de soins de santé, les professionnels de l'informatique et les statisticiens.

Des cartes de contrôle soigneusement conçues garantissent que le taux de fausses alarmes est inférieur à un seuil prédéfini tout en minimisant le délai de détection des changements importants. Un soutien statistique est nécessaire pour aider à prendre des décisions sur les procédures les plus appropriées et sur la manière de les mettre en œuvre.

Ensuite, nous décrivons des méthodes pour détecter les changements dans la distribution marginale de Y ; c'est le plus simple mathématiquement parlant, car Y est généralement de faible dimension. Sur cette base, nous décrivons les méthodes de détection des changements dans la distribution marginale de X, suivies de celles des distributions conditionnelles. Le tableau 1 présente un résumé des méthodes décrites dans cette section.

Lorsque des données étiquetées sont disponibles, on peut utiliser des cartes de contrôle pour surveiller les changements dans la distribution de Y. Pour un résultat unidimensionnel Y, nous pouvons utiliser des cartes de contrôle univariées pour surveiller les changements dans les statistiques récapitulatives telles que la moyenne, la variance et le taux de manque. Dans le contexte de notre exemple AHE, nous pouvons l'utiliser pour surveiller les changements dans la prévalence de l'AHE ou la valeur MAP moyenne. Si Y est un vecteur de résultats multiples, une solution simple consiste à construire des cartes de contrôle distinctes pour chacun. Les cartes de contrôle couramment utilisées qui entrent dans cette catégorie comprennent les cartes de contrôle Shewhart, les cartes de contrôle de somme cumulée (CUSUM)35 et les cartes de contrôle de moyenne mobile pondérée exponentiellement (EWMA)31. En pratique, la distribution de Y peut être soumise à de nombreuses sources de variation telles que la saisonnalité. Une solution consiste à modéliser la valeur attendue de chaque observation compte tenu des sources connues de variabilité et d'appliquer des méthodes SPC pour surveiller les résidus.

Les cartes de contrôle statistiques peuvent également être utilisées pour surveiller les changements dans la distribution marginale des variables d'entrée. Un avantage majeur de ces graphiques est qu'ils peuvent être facilement mis en œuvre même lorsque le résultat est difficile à mesurer ou ne peut être observé qu'après un long délai.

Nous avons déjà décrit les cartes de contrôle univariées dans la section précédente ; ceux-ci peuvent également être utilisés pour surveiller les variables d'entrée individuellement. Lorsqu'il est important de surveiller la relation entre les variables d'entrée, il convient plutôt d'utiliser des cartes de contrôle multivariées telles que les cartes de contrôle multivariées CUSUM et EWMA (MCUSUM et MEWMA, respectivement) et le T2 36 de Hotelling. Si X est de grande dimension, les méthodes SPC traditionnelles peuvent avoir taux de fausses alarmes gonflés ou faible puissance pour détecter les changements. Cela peut être résolu en utilisant la sélection de variables37, des techniques de réduction de dimension38 ou le regroupement d'histogrammes39. Pour les types de données complexes tels que les formes d'onde physiologiques, les images médicales et les notes cliniques, les méthodes d'apprentissage de la représentation peuvent transformer les données en un vecteur de dimension inférieure adapté à la saisie dans les cartes de contrôle traditionnelles40,41. La quantification de la distance entre deux distributions est fondamentale pour détecter les changements de distribution. Des travaux récents ont proposé de nouvelles mesures de distance entre les distributions de probabilité multivariées de grande dimension, telles que la distance de Wasserstein, les f-divergences42 et les mesures basées sur le noyau43,44.

Compte tenu de la complexité des algorithmes de ML, un certain nombre d'articles ont suggéré de surveiller les mesures d'explicabilité du ML, telles que l'importance variable (VI)18,24. L'idée est que ces métriques fournissent une représentation plus interprétable des données. Néanmoins, il est important de ne pas surinterpréter ces graphiques. Étant donné que la plupart des métriques VI définies dans la littérature ML quantifient l'importance de chaque caractéristique telle qu'attribuée par le modèle existant, les changements dans ces métriques indiquent simplement un changement dans la distribution des variables d'entrée ; elles n'indiquent pas nécessairement si et comment la relation entre les variables d'entrée et les variables cibles a changé. Par exemple, une augmentation du VI moyen d'une variable donnée indique que sa distribution s'est déplacée vers des valeurs auxquelles on attribue une plus grande importance, mais cette variable peut en fait être devenue moins prédictive de Y. Pour surveiller l'importance de la variable au niveau de la population à la place45, nous suggérons surveiller la relation entre X et Y à l'aide des techniques décrites dans la section suivante.

Enfin, les cartes de contrôle statistiques peuvent être utilisées pour surveiller les changements dans la relation entre X et Y. L'approche la plus intuitive, peut-être, consiste à surveiller les mesures de performance qui ont été utilisées pour former ou tester le modèle d'origine46. Dans l'exemple AHE, on peut choisir de surveiller l'erreur quadratique moyenne (MSE) entre les valeurs MAP prévues et observées ou la zone sous la courbe caractéristique de fonctionnement du récepteur (AUC) compte tenu des risques AHE prédits et des événements AHE observés. En suivant une variété de ces mesures, différents aspects des performances de prédiction peuvent être mesurés, tels que la discrimination, l'étalonnage et l'équité du modèle. Les mesures de performance qui sont définies comme la perte moyenne sur les observations individuelles (par exemple MSE) peuvent être surveillées à l'aide de cartes de contrôle univariées comme décrit dans la section précédente. Les mesures de performance qui ne peuvent être estimées qu'à l'aide d'un lot d'observations (par exemple, l'AUC) nécessitent de regrouper les observations et de surveiller les résumés par lots à la place.

Bien que les procédures de surveillance des mesures de performance soient simples et intuitives, leur principal inconvénient est que la performance peut chuter en raison de changements dans les distributions marginales ou conditionnelles. Par exemple, une baisse de la précision des prédictions de notre système d'alerte précoce AHE peut être due soit à un changement dans la population de patients (un changement de X) soit à un changement dans l'épidémiologie (un changement de Y∣X). Pour guider l'analyse des causes profondes, il est important de faire la distinction entre les deux. Ensuite, nous décrivons les procédures pour détecter si un changement s'est produit uniquement dans les distributions conditionnelles.

Pour surveiller les changements dans la distribution conditionnelle Y∣X, on peut appliquer des généralisations de la procédure CUSUM telles que la procédure de Shiryaev-Roberts47,48 et le test du rapport de vraisemblance généralisé (GLRT)49,50. En bref, ces procédés surveillent les différences entre le modèle d'origine et le modèle réajusté pour un point de changement candidat. En surveillant la différence entre ces deux modèles, ces méthodes ne sont sensibles qu'aux changements de la distribution conditionnelle. En outre, on peut envisager une classe plus large de tests dits de fluctuation M généralisée qui donne à l'utilisateur plus de flexibilité pour décider quelles mesures suivre51. Au moment de décider entre les procédures de surveillance, il est important de comprendre les hypothèses sous-jacentes. Par exemple, les procédures de surveillance des modèles paramétriques ne peuvent pas être utilisées pour surveiller directement des algorithmes d'IA complexes tels que les réseaux de neurones, mais peuvent être utilisées pour surveiller des modèles de recalibrage paramétrique (par exemple, le recalibrage logistique52). Des travaux récents ont cherché à assouplir les hypothèses courantes, y compris les extensions non paramétriques53,54 et les méthodes de gestion de X55,56,57 de grande dimension.

Dans certains cas, on peut plutôt s'intéresser au suivi de X∣Y. Ceci est pertinent, par exemple, lorsque l'algorithme ML prédit le diagnostic de maladie Y à partir d'une image radiographique X, car la maladie peut se manifester différemment au fil du temps et les images résultantes peuvent changer. Si Y ne prend que quelques valeurs, on peut surveiller individuellement la distribution de X dans chaque strate en utilisant les méthodes décrites dans la section précédente. Si Y prend de nombreuses valeurs ou est continu, on peut utiliser les procédures susmentionnées pour surveiller les changements dans Y∣X, où nous changeons l'ordre de X et Y. Pour X de grande dimension, il faut appliquer la réduction de dimension avant l'application de ces méthodes et surveiller la relation conditionnelle entre les entités réduites et Y à la place.

Malgré l'utilisation croissante des cartes de contrôle dans les soins de santé, il est important de reconnaître que bon nombre de ces méthodes ont été initialement développées pour la fabrication industrielle, où les données sont beaucoup plus uniformes et on a un contrôle beaucoup plus fin sur le processus de collecte de données. Des travaux antérieurs ont décrit comment aborder les différences entre les applications de cartes de contrôle liées à la santé et les applications industrielles58. De nouveaux défis et opportunités se présentent lorsque ces méthodes sont utilisées pour surveiller les algorithmes cliniques d'IA. Nous présentons ici deux de ces défis, mais il y en a beaucoup d'autres que nous ne pourrons pas aborder dans ce manuscrit.

Un défi majeur rencontré dans de nombreux contextes est la latence entre les prédictions générées par l'algorithme et la variable cible. Par exemple, des résultats tels que la mortalité ou le développement d'une tumeur maligne secondaire nécessitent généralement une période de suivi importante. Dans de tels cas, il devient difficile de répondre aux changements de performances de l'algorithme en temps opportun. Une solution potentielle consiste à surveiller dans quelle mesure un algorithme d'IA prédit les résultats de substitution. Des changements dans cette mesure indirecte serviraient de « canari » indiquant que quelque chose a mal tourné. À titre d'exemple, considérons un algorithme conçu pour prédire la survie des patients à 30 jours. Nous pouvons surveiller l'ASC de l'algorithme pour prédire un critère d'évaluation plus proche, tel que la survie du patient à 5 jours, afin de raccourcir le délai de détection. Les développeurs de modèles peuvent également faciliter l'IA-QI en fournissant des algorithmes qui génèrent des prédictions pour le résultat d'intérêt et ces résultats de substitution. Nous notons que les résultats de substitution dans le contexte de l'AI-QI ne doivent pas nécessairement satisfaire aux mêmes propriétés formelles utilisées pour mesurer l'efficacité du traitement59,60, car le coût d'une fausse alarme est beaucoup plus faible dans notre contexte.

Un autre défi est la confusion induite par l'IA. Autrement dit, lorsque les algorithmes basés sur l'IA fournissent des prédictions cliniquement exploitables, les cliniciens peuvent choisir d'ajuster leur plan de traitement en fonction des prédictions de l'algorithme. Pour en revenir à notre exemple de système d'alerte précoce AHE, si l'algorithme ML génère une alerte indiquant qu'un AHE est susceptible de se produire dans les 30 prochaines minutes, le personnel hospitalier peut décider d'administrer un traitement via des fluides et/ou des vasopresseurs en réponse. Si le patient ne connaît pas d'épisode hypotensif 30 min plus tard, une question se pose : l'algorithme était-il erroné ou l'intervention prescrite a-t-elle changé les circonstances ? Dans de telles situations, nous devons tenir compte du rôle des facteurs humains61 et des interventions médicales confondantes (IMC), car nous ne pouvons pas observer le résultat contrefactuel qui se serait produit si la prédiction n'avait pas été disponible. Bien que la confusion se produise en l'absence de prédictions basées sur l'IA62,63, les CMI deviennent beaucoup plus graves lorsque les cliniciens utilisent des algorithmes d'IA dans leur processus de prise de décision64,65,66. En fait, plus l'IA est efficace, plus les performances de l'algorithme d'IA se dégraderont rapidement.

Du point de vue statistique, la meilleure approche pour obtenir une estimation impartiale des performances du modèle consiste à sélectionner au hasard un sous-ensemble de patients pour lesquels les prestataires ne reçoivent pas de prédictions basées sur l'IA. Cependant, l'éthique d'une telle approche doit être examinée et seules des variations mineures de la norme de soins sont généralement prises en compte dans l'AQ hospitalière. Une autre option consiste à s'appuyer sur les données manquantes et les techniques d'inférence causale pour ajuster la confusion66,67. Bien que cela évite la question de l'éthique médicale, les méthodes d'inférence causale dépendent d'hypothèses solides pour tirer des conclusions valables. Cela peut être ténu lors de l'analyse des flux de données, car de telles méthodes nécessitent que les hypothèses soient maintenues à tout moment. Il n'existe actuellement aucune solution définitive et davantage de recherches sont justifiées.

Nous présentons ici une simulation pour illustrer comment le SPC peut être utilisé pour surveiller les performances d'un système d'alerte précoce AHE (Fig. 3). Supposons que l'algorithme prévoit les futurs niveaux de MAP et s'appuie sur la MAP de base et la fréquence cardiaque (FC) comme variables d'entrée. Le clinicien est averti lorsqu'il est prévu que la MAP tombe en dessous de 65 mmHg dans les 15 minutes suivantes.

Considérez un algorithme hypothétique de prédiction de la PAM qui prédit le risque d'un patient de développer un épisode d'hypotension aiguë sur la base de deux variables d'entrée : la PAM de base et la fréquence cardiaque (FC). Les deux lignes supérieures surveillent les changements dans les deux variables d'entrée à l'aide de la procédure CUSUM, où la ligne sombre est la statistique du graphique et les lignes claires sont les limites de contrôle. La troisième ligne vise à détecter les changements dans la relation conditionnelle entre les variables de résultat et d'entrée en surveillant les résidus à l'aide de la procédure CUSUM. Une alarme est déclenchée lorsqu'une statistique de graphique dépasse ses limites de contrôle.

Dans la simulation, nous observons un nouveau patient à chaque instant. Deux changements se produisent au point temporel 30 : nous introduisons un petit changement vers la MAP moyenne de référence et un changement plus important dans la relation conditionnelle entre le résultat et les deux variables d'entrée. Nous construisons des cartes de contrôle pour détecter les changements dans la moyenne de référence MAP et HR et la relation conditionnelle Y∣X. À l'aide du logiciel de surveillance fourni par le package strucchange R68, nous construisons des limites de contrôle telles que le taux de fausses alarmes est de 0,05 dans chacune des cartes de contrôle. La statistique du graphique franchit les limites de contrôle au temps 35, correspondant à un retard de cinq points dans le temps. Après le déclenchement d'une alarme, l'hôpital doit lancer une analyse des causes profondes. En se référant au diagramme de cause à effet de la Fig. 2, on peut conclure que la relation conditionnelle a changé en raison d'un changement d'épidémiologie, comme l'émergence de COVID-19 dans la population de patients. Si l'on s'attend à ce que ce changement dans la relation conditionnelle soit persistant, l'équipe AI-QI devra probablement mettre à jour le modèle.

L'objectif de la mise à jour du modèle est de corriger les baisses observées des performances du modèle, d'empêcher que de telles baisses ne se produisent et même d'améliorer les performances du modèle au fil du temps. En analysant un flux de données et de résultats de patients, ces procédures ont le potentiel de s'adapter en permanence aux changements de distribution. Nous notons que contrairement à la surveillance de l'IA, les procédures de mise à jour du modèle ne doivent pas nécessairement faire la distinction entre la variation de cause commune et la variation de cause spéciale. Néanmoins, il est souvent utile de comprendre quel type de variation est visé par chaque modification, car cela peut élucider si d'autres actions correctives doivent être prises (par exemple, mise à jour du prétraitement des données plutôt que du modèle).

Les procédures de mise à jour des modèles ne doivent pas être prises à la légère, car il y a toujours un risque que les modifications proposées dégradent les performances. Compte tenu de la complexité de la mise à jour continue des modèles, les mises à jour réelles actuelles du modèle de prédiction clinique se limitent généralement à des mises à jour ponctuelles ad hoc69,70. Néanmoins, l'utilisabilité à long terme des algorithmes d'IA repose sur des procédures qui introduisent des mises à jour régulières des modèles qui sont garanties sûres et efficaces. À la lumière de cela, les organismes de réglementation envisagent maintenant diverses solutions à ce soi-disant « problème de mise à jour »71. Par exemple, la FDA américaine a proposé que le fournisseur du modèle fournisse un Algorithm Change Protocol (ACP), un document qui décrit comment les modifications seront générées et validées15. Ce cadre est aligné sur les politiques de l'Agence européenne des médicaments pour les dispositifs médicaux généraux, qui exigent déjà des fournisseurs qu'ils fournissent des plans de gestion du changement et effectuent une surveillance post-commercialisation72.

Ci-dessous, nous soulignons certaines des principales considérations lors de la conception/sélection d'une procédure de mise à jour du modèle. Le tableau 2 présente un résumé des méthodes décrites ci-dessous.

Le choix des métriques de performance est crucial dans la mise à jour du modèle, tout comme dans la surveillance ML. La raison en est que les procédures de mise à jour des modèles qui fournissent des garanties par rapport à un ensemble de métriques de performance peuvent ne pas protéger contre la dégradation des autres. Par exemple, de nombreux résultats dans la littérature sur l'apprentissage en ligne fournissent des garanties que la performance du modèle évolutif sera meilleure que celle du modèle original en moyenne dans la population cible, sur une période de plusieurs années. Bien que cela fournisse un premier niveau de défense contre la dégradation des performances du ML, de telles garanties ne signifient pas que le modèle en évolution sera supérieur dans chaque sous-population ni à chaque instant. A ce titre, il est important de comprendre comment la performance est quantifiée par la procédure d'apprentissage en ligne et quelles garanties elle apporte. Un support statistique sera nécessaire pour s'assurer que la procédure de mise à jour du modèle sélectionnée répond aux exigences de performance souhaitées.

Un autre exemple se pose dans le cadre de la police prédictive, dans laquelle un algorithme tente d'affecter la police à travers une ville pour prévenir les crimes :73 a montré comment le recyclage continu de l'algorithme sur les données de criminalité observée, ainsi qu'une mesure de performance naïve, peut conduire à une rétroaction incontrôlable. boucles où la police est renvoyée à plusieurs reprises dans les mêmes quartiers, quel que soit le véritable taux de criminalité. Ces défis ont stimulé la recherche pour concevoir des mesures de performance qui maintiennent ou même favorisent l'équité algorithmique et résistent à la création de boucles de rétroaction délétères74,75,76.

Au moment de décider entre différents types de mises à jour de modèles, il faut tenir compte de leurs « complexités de modèle » et du compromis biais-variance77,78. Le type de mise à jour de modèle le plus simple est le recalibrage, dans lequel les scores continus (par exemple, les risques prédits) produits par le modèle d'origine sont mis en correspondance avec de nouvelles valeurs ; les exemples incluent la mise à l'échelle de Platt, la mise à l'échelle de la température et la régression isotonique79,80,81,82. Des révisions plus poussées du modèle transforment les prédictions du modèle original en prenant en compte d'autres variables. Par exemple, la révision du modèle logistique régresse le résultat par rapport à la prédiction du modèle original et d'autres variables sujettes au changement83. Cette catégorie comprend également les procédures qui ajustent uniquement la couche supérieure d'un réseau de neurones.

Les mises à jour de modèle les plus complexes sont celles qui recyclent le modèle à partir de zéro ou s'adaptent à un modèle entièrement différent. Il y a un compromis à faire lorsque l'on opte pour une plus grande complexité : on est mieux à même de se protéger contre les changements de distribution complexes, mais les mises à jour qui en résultent sont sensibles au bruit dans les données et, sans un contrôle minutieux de la complexité du modèle, peuvent être surajustées. Étant donné que les vitesses de données dans les milieux médicaux ont tendance à être lentes, de simples mises à jour de modèles peuvent souvent être très efficaces84.

Néanmoins, des mises à jour de modèles plus complexes peuvent éventuellement être utiles à mesure que davantage de données continuent de s'accumuler. Des procédures telles que la validation croisée en ligne85 et la moyenne de modèle bayésien86 peuvent aider à sélectionner dynamiquement la complexité du modèle la plus appropriée au fil du temps.

Une autre considération de conception consiste à décider quand et à quelle fréquence les mises à jour du modèle se produisent. D'une manière générale, deux approches existent : une approche "réactive", qui met à jour le modèle uniquement en réponse aux problèmes détectés par la surveillance continue, contre une approche "mise à jour continue", qui met à jour le modèle même si aucun problème n'a été détecté. Ce dernier est beaucoup moins courant dans la pratique clinique, bien qu'il y ait eu de multiples appels pour une mise à jour régulière du modèle87,88,89. L'avantage de la mise à jour continue est qu'ils peuvent améliorer (et pas seulement maintenir) les performances du modèle, réagir rapidement aux changements de l'environnement, réduire le nombre de patients exposés à un algorithme peu performant et potentiellement améliorer la confiance des cliniciens.

Néanmoins, la mise en œuvre de procédures de mise à jour continue présente de nombreux défis13. Par exemple, les procédures qui recyclent les modèles uniquement sur les données les plus récentes peuvent présenter un phénomène connu sous le nom d '«oubli catastrophique», dans lequel l'intégration de nouvelles données dans le modèle peut écraser les connaissances acquises dans le passé. D'autre part, les procédures qui recyclent les modèles sur toutes les données précédemment collectées peuvent ne pas s'adapter à des changements temporels importants et sont coûteuses en calcul. Pour décider de la quantité de données à utiliser pour recycler le modèle, on peut simuler la procédure d'apprentissage en ligne sur des données rétrospectives pour évaluer le risque d'oubli catastrophique et la pertinence des données passées (voir par exemple10). Un autre défi est que de nombreuses méthodes de mise à jour en ligne ne fournissent pas de garanties de performances significatives sur des horizons temporels réalistes. Les garanties théoriques pour la mise à jour d'algorithmes ML complexes comme les réseaux de neurones sont particulièrement difficiles à établir. Au lieu de cela, des travaux récents ont proposé d'employer des "méta-procédures" qui approuvent les modifications proposées par une procédure d'apprentissage en ligne en boîte noire et garantissent que les modifications approuvées satisfont à certaines garanties de performance. Parmi ces méthodes, les tests d'hypothèses en ligne offrent les meilleures garanties90,91. Une autre approche consiste à utiliser des procédures de mise à jour continue pour les modèles paramétriques, pour lesquels des propriétés théoriques peuvent être dérivées, à des fins de révision de modèle, comme dans le recalibrage/révision logistique en ligne92 et la moyenne de modèle en ligne93.

La performance des mises à jour du modèle appris dépend de la qualité des données de formation. Ainsi, de nombreuses études publiées sur les mises à jour ponctuelles de modèles se sont appuyées sur la conservation manuelle des données de formation et sur la validation approfondie des données69,87. Ce processus peut être très laborieux. Par exemple,70 ont décrit à quel point une conception expérimentale minutieuse était nécessaire pour mettre à jour un modèle de prédiction du risque de délire chez les patients de l'unité de soins intensifs. Étant donné que le résultat était subjectif, il fallait tenir compte des problèmes typiques de fiabilité inter- et intra-évaluateur. De plus, les prédictions de l'algorithme d'IA déployé pouvaient biaiser l'évaluation des résultats, de sorte que les évaluateurs devaient être aveuglés à l'algorithme et à ses prédictions.

Néanmoins, à mesure que la fréquence des mises à jour des modèles augmente, il sera nécessaire de collecter et de nettoyer davantage les données. Malheureusement, les flux de données les plus facilement disponibles dans les milieux médicaux sont de nature observationnelle et sujets à confusion, à des biais structurels, à des lacunes et à une mauvaise classification des résultats, entre autres94,95. Des recherches supplémentaires sont nécessaires pour comprendre comment les modèles peuvent continuellement apprendre des flux de données du monde réel. Le soutien des cliniciens et du service informatique sera crucial pour comprendre la provenance des données et son impact sur les procédures d'apprentissage en ligne.

Pour amener l'IA clinique à maturité, les systèmes d'IA doivent être continuellement surveillés et mis à jour. Nous avons décrit des cadres statistiques généraux pour surveiller les performances algorithmiques et les principales considérations lors de la conception des procédures de mise à jour du modèle. En discutant de l'IA-QI, nous avons souligné qu'il s'agit d'une initiative transversale qui nécessite une collaboration entre les développeurs de modèles, les cliniciens, les professionnels de l'informatique, les biostatisticiens et les agences de réglementation. Pour mener cet effort, nous exhortons les entreprises cliniques à créer des équipes AI-QI qui dirigeront la surveillance et la maintenance continues des systèmes AI/ML. En servant de « ciment » entre ces différentes entités, les équipes AI-QI amélioreront la sécurité et l'efficacité de ces algorithmes non seulement au niveau hospitalier mais aussi au niveau national ou multinational.

Les initiatives cliniques d'amélioration de la qualité sont généralement menées au niveau du département/division. Étant donné que l'AI-QI nécessite de nombreux types d'expertise et de ressources en dehors de celles disponibles dans un département clinique spécifique, nous pensons que les entités AI-QI devraient couvrir les départements cliniques. Un tel groupe peut être hébergé par des structures existantes, comme un département de biostatistique ou d'épidémiologie. Alternativement, les hôpitaux peuvent chercher à créer des départements dédiés à l'IA clinique, qui centraliseraient les efforts pour développer, déployer et maintenir des modèles d'IA dans les soins cliniques96. Quel que soit l'endroit où cette unité est hébergée, le succès de cette équipe dépendra de ses capacités analytiques clés, telles que l'acquisition de données structurées, la gouvernance des données, l'expertise en statistique et en apprentissage automatique et l'intégration des flux de travail cliniques. Une grande partie de cela suppose que l'hôpital a atteint un niveau suffisant de maturité analytique (voir par exemple HIMSS "Modèle d'adoption pour la maturité analytique") et s'appuie sur des outils développés par le service informatique de l'hôpital. En effet, le service informatique sera un partenaire clé dans la construction de ces pipelines de données et la mise en évidence des mesures de performance des modèles dans le poste de travail du clinicien.

Au moment de décider d'adopter ou non un système d'IA dans la pratique clinique, il sera également important pour les hôpitaux de clarifier comment les responsabilités de surveillance et de mise à jour du modèle seront réparties entre le développeur du modèle et l'équipe AI-QI. Ceci est particulièrement pertinent lorsque l'algorithme est propriétaire ; le partage des responsabilités peut être plus souple lorsque l'algorithme est développé par une équipe interne. Par exemple, comment le modèle doit-il être conçu pour faciliter la surveillance et quels outils un fournisseur de modèles doit-il fournir pour surveiller son algorithme ? De même, quels outils et données de formation le fournisseur de modèle doit-il fournir pour mettre à jour le modèle ? Une option est que le fournisseur de modèles assume l'entière responsabilité de fournir ces outils à l'équipe AI-QI. L'avantage de cette option est qu'elle minimise la charge de travail de l'équipe IA-QI et que le fournisseur de modèles peut exploiter les données de plusieurs institutions pour améliorer la surveillance et la maintenance des modèles97,98. Néanmoins, cela soulève des problèmes potentiels de conflits d'intérêts, car le fournisseur du modèle est désormais responsable de la surveillance des performances de son propre produit. Une deuxième option est que l'unité locale AI-QI de l'hôpital assume l'entière responsabilité. L'avantage est que l'hôpital a toute liberté sur le pipeline de surveillance, comme le choix des paramètres les plus pertinents. L'inconvénient, cependant, est qu'on ne peut plus exploiter les données d'autres institutions, ce qui peut être particulièrement utile pour apprendre de bonnes modifications algorithmiques. Une troisième option, la plus probable, est que la responsabilité est partagée entre l'équipe AI-QI de l'hôpital et le fournisseur du modèle. Par exemple, les hôpitaux assument la responsabilité d'introduire des ajustements spécifiques au site, et le fabricant assume la responsabilité de déployer des mises à jour de modèles plus complètes qui ne peuvent être apprises qu'à l'aide de données sur plusieurs sites.

En plus de la surveillance au niveau hospitalier par l'équipe AI-QI, les organismes de réglementation joueront un rôle déterminant pour garantir la sécurité et l'efficacité à long terme des algorithmes basés sur l'IA au niveau national ou international. Les propositions actuelles exigent des fournisseurs d'algorithmes qu'ils soient le fer de lance de la surveillance des performances15. Bien que le fournisseur jouera certainement un rôle majeur dans la conception du pipeline de surveillance, la procédure de surveillance elle-même devrait être menée par une entité indépendante pour éviter les conflits d'intérêts. À cette fin, les systèmes de surveillance post-commercialisation existants comme Sentinel Initiative99 de la FDA pourraient être adaptés pour surveiller les algorithmes basés sur l'IA dans les soins de santé, étendant la portée de ces programmes pour inclure non seulement la pharmacosurveillance, mais aussi la "technovigilence"100,101. De plus, les équipes AI-QI peuvent servir de partenaires clés dans cette initiative nationale, en partageant des données et des informations sur les performances des modèles locaux. Si une dérive substantielle des performances est détectée sur plusieurs sites, l'organisme de réglementation devrait avoir la possibilité de suspendre la licence de l'algorithme d'IA.

En général, très peu d'études ont évalué l'efficacité des méthodes de surveillance et de maintenance continues des algorithmes basés sur l'IA appliqués aux flux de données médicales, peut-être en raison d'un manque d'ensembles de données publics avec horodatage. La plupart des études ont pris en compte soit des données simulées, soit des données provenant d'un seul ensemble de données médicales privées52,92,93. Bien que de vastes ensembles de données accessibles au public, tels que la base de données MIMIC (Medical Information Mart for Intensive Care)102, s'orientent vers la publication d'horodatages plus précis, les décalages de date aléatoires utilisés pour l'anonymisation des données ont l'effet secondaire malheureux d'atténuer les décalages temporels existant dans le données. Comment valider les procédures de surveillance et de mise à jour du ML sur des données horodatées tout en préservant la vie privée des patients reste un problème ouvert.

Enfin, il existe actuellement peu de progiciels disponibles pour le suivi et la maintenance des algorithmes d'IA103,104,105. Ceux qui existent sont limités, que ce soit dans les types d'algorithmes, les types de données et/ou les garanties statistiques qu'ils offrent. Il est urgent de créer des progiciels open source robustes pour l'IA-QI et d'aider les hôpitaux tout au long de leur parcours pour se préparer à l'IA.

Le partage de données ne s'applique pas à cet article car aucun ensemble de données n'a été généré ou analysé au cours de l'étude actuelle.

Le code de l'exemple de surveillance d'un système d'alerte précoce AHE est inclus dans les documents supplémentaires.

Hannun, AY et al. Détection et classification des arythmies au niveau du cardiologue dans les électrocardiogrammes ambulatoires à l'aide d'un réseau de neurones profonds. Nat. Méd. 25, 65–69 (2019).

Article CAS PubMed PubMed Central Google Scholar

Esteva, A. et al. Un guide pour l'apprentissage en profondeur dans le domaine de la santé. Nat. Méd. 25, 24-29 (2019).

Article CAS PubMed Google Scholar

Pirracchio, R. et al. Le Big Data et l'apprentissage automatique ciblé en action pour aider à la décision médicale en USI. Anesthésie. Crit Care Douleur Med. 38, 377–384 (2019).

Article PubMed Google Scholar

Liu, S. et al. Apprentissage par renforcement pour l'aide à la décision clinique en soins intensifs : examen complet. J. Med. Rés Internet. 22, e18477 (2020).

Article PubMed PubMed Central Google Scholar

Adegboro, CO, Choudhury, A., Asan, O. & Kelly, MM L'intelligence artificielle pour améliorer les résultats de santé à l'USIN et à l'USIP : une revue systématique. Hosp Pediatr 12, 93–110 (2022).

Article PubMed Google Scholar

Choudhury, A. & Asan, O. Rôle de l'intelligence artificielle dans les résultats en matière de sécurité des patients : revue systématique de la littérature. JMIR Med Inform. 8, e18599 (2020).

Article PubMed PubMed Central Google Scholar

Benjamens, S., Dhunnoo, P. & Meskó, B. L'état des dispositifs médicaux et des algorithmes basés sur l'intelligence artificielle (approuvés par la fda) : une base de données en ligne. NPJ Chiffre Med 3, 118 (2020).

Article PubMed PubMed Central Google Scholar

Sculley, D. et al. Apprentissage automatique : la carte de crédit à taux élevé de la dette technique. Dans Advances In Neural Information Processing Systems, vol. 28 (eds. Cortes, C., Lawrence, N., Lee, D., Sugiyama, M. & Garnett, R.) (Curran Associates, Inc., 2015).

Davis, SE, Lasko, TA, Chen, G., Siew, ED & Matheny, ME Dérive d'étalonnage dans les modèles de régression et d'apprentissage automatique pour les lésions rénales aiguës. Confiture. Méd. Informer. Assoc. 24, 1052-1061 (2017).

Article PubMed PubMed Central Google Scholar

Chen, JH, Alagappan, M., Goldstein, MK, Asch, SM & Altman, RB Pertinence décroissante des données cliniques pour les décisions futures dans les ensembles d'ordonnances cliniques pour patients hospitalisés basés sur les données. Int. J. Med. Informer. 102, 71–79 (2017).

Article PubMed PubMed Central Google Scholar

Nestor, B. et al. Robustesse des fonctionnalités dans les dossiers de santé non stationnaires : mises en garde concernant les performances des modèles déployables dans les tâches courantes d'apprentissage automatique clinique. Apprentissage automatique pour les soins de santé 106, 381–405 (2019).

Google Scholar

Yoshida, E., Fei, S., Bavuso, K., Lagor, C. & Maviglia, S. La valeur de la surveillance des interventions d'aide à la décision clinique. Appl. Clin. Informer. 9, 163–173 (2018).

Article PubMed PubMed Central Google Scholar

Lee, CS & Lee, AY Applications cliniques de l'apprentissage automatique en apprentissage continu. Lancet Digital Health 2, e279–e281 (2020).

Article PubMed Google Scholar

Vokinger, KN, Feuerriegel, S. & Kesselheim, AS Apprentissage continu dans les dispositifs médicaux : plan d'action de la FDA et au-delà. Lancet Digital Health 3, e337–e338 (2021).

Article PubMed Google Scholar

Administration américaine des aliments et médicaments. Cadre réglementaire proposé pour les modifications apportées aux logiciels basés sur l'intelligence artificielle/l'apprentissage automatique (IA/ML) en tant que dispositif médical (SaMD) : document de discussion et demande de commentaires. Technologie. (2019).

Liu, Y., Chen, P.-HC, Krause, J. & Peng, L. Comment lire des articles utilisant l'apprentissage automatique : guides de l'utilisateur de la littérature médicale. JAMA 322, 1806–1816 (2019).

Article PubMed Google Scholar

Finlayson, SG et al. Le clinicien et l'évolution des ensembles de données dans l'intelligence artificielle. N. Engl. J. Med. 385, 283-286 (2021).

Article PubMed PubMed Central Google Scholar

Breck, E., Cai, S., Nielsen, E., Salib, M. & Sculley, D. Le score du test ML : Une rubrique pour la préparation à la production ML et la réduction de la dette technique. Dans : 2017 IEEE International Conference on Big Data (Big Data), 1123–1132 (ieeexplore.ieee.org, 2017).

Amershi, S. et al. Ingénierie logicielle pour l'apprentissage automatique : une étude de cas. Dans : 2019 IEEE/ACM 41st International Conference on Software Engineering : Software Engineering in Practice (ICSE-SEIP), 291–300 (2019).

Benneyan, JC, Lloyd, RC & Plsek, PE Contrôle statistique des processus comme outil de recherche et d'amélioration des soins de santé. Qual. Saf. Soins de santé 12, 458–464 (2003).

Article CAS PubMed PubMed Central Google Scholar

Thor, J. et al. Application du contrôle statistique des processus dans l'amélioration des soins de santé : revue systématique. Qual. Saf. Soins de santé 16, 387–399 (2007).

Article PubMed PubMed Central Google Scholar

Backhouse, A. & Ogunlayi, F. Amélioration de la qualité dans la pratique. BMJ 368, m865 (2020).

Article PubMed PubMed Central Google Scholar

Hatib, F. et al. Algorithme d'apprentissage automatique pour prédire l'hypotension sur la base d'une analyse haute fidélité de la forme d'onde de la pression artérielle. Anesthésiologie 129, 663–674 (2018).

Article PubMed Google Scholar

Duckworth, C. et al. Utilisation de l'apprentissage automatique explicable pour caractériser la dérive des données et détecter les risques sanitaires émergents pour les admissions aux urgences pendant la COVID-19. Sci. Rép. 11, 23017 (2021).

Article CAS PubMed PubMed Central Google Scholar

Rubin, DL Intelligence artificielle en imagerie : le rôle du radiologue. Confiture. Coll. Radiol. 16, 1309-1317 (2019).

Article PubMed PubMed Central Google Scholar

Gossmann, A., Cha, KH et Sun, X. Détérioration des performances des réseaux de neurones profonds pour la classification des lésions en mammographie en raison d'un changement de distribution : une analyse basée sur un changement de distribution créé artificiellement. Dans : Imagerie médicale 2020 : Diagnostic assisté par ordinateur, Vol. 11314, (eds. Hahn, HK & Mazurowski, MA)1131404 (Société internationale d'optique et de photonique, 2020).

Cabitza, F. et al. L'importance d'être externe. aperçu méthodologique pour la validation externe des modèles d'apprentissage automatique en médecine. Calcul. Méthodes Programmes Biomed. 208, 106288 (2021).

Article PubMed Google Scholar

Subbaswamy, A., Schulam, P. & Saria, S. Prévention des défaillances dues au changement d'ensemble de données : Apprentissage de modèles prédictifs qui transportent. Dans : Proc. Recherche sur l'apprentissage automatique Vol. 89 (eds. Chaudhuri, K. & Sugiyama, M.) 3118–3127 (PMLR, 2019).

Schölkopf, B. et al. Sur l'apprentissage causal et anticausal. Dans : Proc. 29e Conférence internationale sur la Conférence internationale sur l'apprentissage automatique, ICML'12 459–466 (Omnipress, 2012).

Quionero-Candela, J., Sugiyama, M., Schwaighofer, A. & Lawrence, ND Dataset Shift in Machine Learning (The MIT Press, 2009).

Montgomery, D. Introduction au contrôle statistique de la qualité (Wiley, 2020).

Aggarwal, CC Une introduction à l'analyse des valeurs aberrantes. Dans : Analyse des valeurs aberrantes 1–34 (Springer, 2017).

Greenland, S., Pearl, J. & Robins, JM Diagrammes de causalité pour la recherche épidémiologique. Épidémiologie 10, 37–48 (1999).

Article CAS PubMed Google Scholar

Castro, DC, Walker, I. & Glocker, B. La causalité est importante en imagerie médicale. Nat. Commun. 11, 3673 (2020).

Article CAS PubMed PubMed Central Google Scholar

Page, ES Programmes d'inspection continue. Biometrika 41, 100–115 (1954).

Article Google Scholar

Bersimis, S., Psarakis, S. & Panaretos, J. Cartes de contrôle de processus statistiques multivariées : un aperçu. Qual. Fiab. Ing. Int. 23, 517–543 (2007).

Article Google Scholar

Zou, C. & Qiu, P. Contrôle de processus statistique multivarié à l'aide de LASSO. Confiture. Statistique. Assoc. 104, 1586-1596 (2009).

Article Google Scholar

Qahtan, AA, Alharbi, B., Wang, S. & Zhang, X. Un cadre de détection des changements basé sur PCA pour les flux de données multidimensionnels : détection des changements dans les flux de données multidimensionnels. Dans : Proc. 21e Conférence internationale ACM SIGKDD sur la découverte des connaissances et l'exploration de données 935–944 (Association for Computing Machinery, 2015).

Boracchi, G., Carrera, D., Cervellera, C. & Macciò, D. QuantTree : Histogrammes pour la détection des changements dans les flux de données multivariées. Dans : Proc. 35e Conférence internationale sur l'apprentissage automatique Vol. 80 (eds. Dy, J. & Krause, A.) 639–648 (PMLR, 2018).

Rabanser, S., Günnemann, S. & Lipton, Z. Failing Loudly : Une étude empirique des méthodes de détection du décalage des ensembles de données. Dans: Advances in Neural Information Processing Systems Vol. 32 (eds. Wallach, H., Larochelle, H., Beygelzimer, A., d'Alché-Buc, F., Fox, E. & Garnett, R.) 1396–1408 https://proceedings.neurips.cc /paper/2019/file/846c260d715e5b854ffad5f70a516c88-Paper.pdf (Curran Associates, Inc., 2019).

Qiu, P. Big data ? le contrôle statistique des processus peut vous aider ! Suis. Statistique. 74, 329-344 (2020).

Article Google Scholar

Ditzler, G. & Polikar, R. Hellinger détection de dérive basée sur la distance pour les environnements non stationnaires. Dans : 2011 IEEE Symposium on Computational Intelligence in Dynamic and Uncertain Environments (CIDUE) 41-48 (2011).

Gretton, A., Borgwardt, K., Rasch, M., Schölkopf, B. & Smola, A. Une méthode de noyau pour le problème à deux échantillons. Dans: Advances in Neural Information Processing Systems Vol. 19 (eds. Schölkopf, B., Platt, J. & Hoffman, T.) (MIT Press, 2007).

Harchaoui, Z., Moulines, E. & Bach, F. Analyse du point de rupture du noyau. Dans Advances in Neural Information Processing Systems Vol. 21 (eds. Koller, D., Schuurmans, D., Bengio, Y. & Bottou, L.) (Curran Associates, Inc., 2009).

Williamson, BD & Feng, J. Inférence statistique non paramétrique efficace sur l'importance des caractéristiques de la population à l'aide de valeurs de Shapley. Dans : Proc. de la 37e Conférence internationale sur l'apprentissage automatique Vol. 119 (eds. Daumé. H. III & Singh, A.) 10282–10291 (PMLR, 2020).

Nishida, K. & Yamauchi, K. Détecter la dérive conceptuelle à l'aide de tests statistiques. Dans : Discovery Science 264–269 https://doi.org/10.1007/978-3-540-75488-6_27 (Springer Berlin Heidelberg, 2007).

Shiryaev, AN Sur les méthodes optimales dans les problèmes de détection les plus rapides. Théorie Probab. Appl. 8, 22–46 (1963).

Article Google Scholar

Roberts, SW Une comparaison de certaines procédures de carte de contrôle. Technometrics 8, 411–430 (1966).

Article Google Scholar

Siegmund, D. & Venkatraman, ES Utilisation de la statistique du rapport de vraisemblance généralisé pour la détection séquentielle d'un point de changement. Anne. Statistiques 23, 255–271 (1995).

Google Scholar

Lai, TL & Xing, H. Détection séquentielle du point de changement lorsque les paramètres avant et après changement sont inconnus. Séq. Anal. 29, 162–175 (2010).

Article Google Scholar

Zeileis, A. & Hornik, K. Tests de fluctuation m généralisés pour l'instabilité des paramètres. Statistique. Néerl. 61, 488-508 (2007).

Article Google Scholar

Davis, SE, Greevy, RA Jr., Lasko, TA, Walsh, CG & Matheny, ME Détection de la dérive d'étalonnage dans les modèles de prédiction clinique pour éclairer la mise à jour du modèle. J. Biomed. Informer. 112, 103611 (2020).

Article PubMed PubMed Central Google Scholar

Zou, C. & Tsung, F. Cartes de contrôle EWMA sans distribution basées sur le rapport de vraisemblance. J. Commod. Sci. Technol. Qual. 42, 174–196 (2010).

Article Google Scholar

Shin, J., Ramdas, A. & Rinaldo, A. Extensions logarithmiques itérées non paramétriques du test de rapport de vraisemblance généralisé séquentiel. IEEE J. Sel. Zones en Inform. Théorie 2, 691–704 (2021).

Article Google Scholar

Leonardi, F. & Bühlmann, P. Détection de point de changement efficace par calcul pour la régression de haute dimension Préimpression à https://doi.org/10.48550/ARXIV.1601.03704 (arXiv, 2016).

Enikeeva, F. & Harchaoui, Z. Détection de point de changement de grande dimension sous des alternatives rares. Anne. Statistique. 47, 2051-2079 (2019).

Article Google Scholar

Liu, L., Salmon, J. & Harchaoui, Z. Détection de changement basée sur le score pour les machines d'apprentissage basées sur le gradient. Dans : ICASSP 2021–2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) 4990–4994 (2021).

Woodall, WH L'utilisation des cartes de contrôle dans les soins de santé et la surveillance de la santé publique. J.Qual. Technol. 38, 89–104 (2006).

Article Google Scholar

Huang, Y. & Gilbert, PB Comparaison des biomarqueurs comme principaux paramètres de substitution. Biométrie 67, 1442–1451 (2011).

Article PubMed PubMed Central Google Scholar

Price, BL, Gilbert, PB et van der Laan, MJ Estimation du substitut optimal basée sur un essai randomisé. Biométrie 74, 1271-1281 (2018).

Asan, O. & Choudhury, A. Tendances de la recherche dans les applications de l'intelligence artificielle dans les soins de santé liés aux facteurs humains : examen de la cartographie. JMIR Hum. Facteurs 8, e28236 (2021).

Article PubMed PubMed Central Google Scholar

Paxton, C., Niculescu-Mizil, A. & Saria, S. Développement de modèles prédictifs à l'aide de dossiers médicaux électroniques : défis et pièges. AMIA Annu. Symp. Proc. 2013, 1109-1115 (2013).

PubMed PubMed Central Google Scholar

Dyagilev, K. & Saria, S. Apprentissage des scores de risque (prédictifs) en présence de censure due aux interventions. Mach. Apprendre. 102, 323–348 (2016).

Article Google Scholar

Lenert, MC, Matheny, ME & Walsh, CG Les modèles de pronostic seront victimes de leur propre succès, à moins que. Confiture. Méd. Informer. Assoc. 26, 1645–1650 (2019).

Article PubMed PubMed Central Google Scholar

Perdomo, J., Zrnic, T., Mendler-Dünner, C. & Hardt, M. Prédiction performative. Dans Proc. de la 37e Conférence internationale sur l'apprentissage automatique Vol. 119 (eds. Daumé. H. III & Singh, A.) 7599–7609 http://proceedings.mlr.press/v119/perdomo20a/perdomo20a.pdf (PMLR, 2020).

Liley, J. et al. La mise à jour du modèle après les interventions introduit paradoxalement un biais. Int. Conf. Artif. Renseignement. Statistiques 130, 3916–3924 (2021).

Google Scholar

Imbens, GW & Rubin, DB Inférence causale dans les sciences statistiques, sociales et biomédicales (Cambridge University Press, 2015).

Zeileis, A., Leisch, F., Hornik, K. & Kleiber, C. strucchange : un package r pour tester le changement structurel dans les modèles de régression linéaire. J. Logiciel statistique. 7, 1–38 (2002).

Article Google Scholar

Harrison, DA, Brady, AR, Parry, GJ, Carpenter, JR et Rowan, K. Recalibrage des modèles de prédiction des risques dans une grande cohorte multicentrique d'admissions dans des unités de soins intensifs généraux pour adultes au Royaume-Uni. Crit. Soin Méd. 34, 1378-1388 (2006).

Article PubMed Google Scholar

van den Boogaard, M. et al. Recalibrage du modèle de prédiction du délire pour les patients en soins intensifs (PRE-DELIRIC): une étude observationnelle multinationale. Soins Intensifs Méd. 40, 361–369 (2014).

Article PubMed Google Scholar

Babic, B., Gerke, S., Evgeniou, T. & Cohen, IG Algorithmes sur le verrouillage réglementaire en médecine. Sciences 366, 1202-1204 (2019).

Article CAS PubMed Google Scholar

Agence européenne des médicaments. Règlement (UE) 2017/745 du parlement européen et du conseil. Technologie. Rép. (2020).

Ensign, D., Friedler, SA, Neville, S., Scheidegger, C. & Venkatasubramanian, S. Runaway boucles de rétroaction dans la police prédictive. Dans : Responsabilité et transparence Vol. 81 (eds. Friedler, SA & Wilson, C.) 160–171 (PMLR, 2018).

Hashimoto, T., Srivastava, M., Namkoong, H. & Liang, P. Équité sans données démographiques dans la minimisation des pertes répétées. Dans Proc. 35e Conférence internationale sur l'apprentissage automatique Vol. 80 (eds. Dy, J. & Krause, A.) 1929-1938 (PMLR, 2018).

Liu, LT, Dean, S., Rolf, E., Simchowitz, M. & Hardt, M. Impact différé de l'apprentissage automatique équitable Vol. 80, 3150-3158 (PMLR, 2018).

Couldechova, A. & Roth, A. The frontiers of fairness in machine learning Preprint at https://doi.org/10.48550/ARXIV.1810.08810 (arXiv, 2018).

Hastie, T., Tibshirani, R. & Friedman, J. Les éléments de l'apprentissage statistique (Springer, 2009) .

James, G., Witten, D., Hastie, T. & Tibshirani, R. Une introduction à l'apprentissage statistique (Springer, 2021).

Platt, J. Sorties probabilistes pour les machines à vecteurs de support et comparaisons avec les méthodes de vraisemblance régularisées. Adv. Grands classificateurs de marge 10, 61–74 (1999).

Google Scholar

Niculescu-Mizil, A. & Caruana, R. Prédire de bonnes probabilités avec un apprentissage supervisé. Dans : Proc. 22e conférence internationale sur l'apprentissage automatique, ICML'05 625–632 (Association for Computing Machinery, 2005).

Guo, C., Pleiss, G., Sun, Y. & Weinberger, KQ Sur l'étalonnage des réseaux de neurones modernes. Int. Conf. Mach. Apprentissage 70, 1321-1330 (2017).

Google Scholar

Chen, W., Sahiner, B., Samuelson, F., Pezeshk, A. et Petrick, N. Étalonnage des scores de classificateur de diagnostic médical en fonction de la probabilité de maladie. Statistique. Méthodes Méd. Rés. 27, 1394-1409 (2018).

Article PubMed Google Scholar

Steyerberg, Modèles de prédiction clinique EW : Une approche pratique du développement, de la validation et de la mise à jour (Springer, 2009). .

Steyerberg, EW, Borsboom, GJJM, van Houwelingen, HC, Eijkemans, MJC & Habbema, JDF Validation et mise à jour des modèles de régression logistique prédictive : une étude sur la taille et la réduction de l'échantillon. Statistique. Méd. 23, 2567-2586 (2004).

Article PubMed Google Scholar

Benkeser, D., Ju, C., Lendle, S. et van der Laan, M. Apprentissage d'ensemble basé sur la validation croisée en ligne. Statistique méd. 37, 249-260 (2018).

Article Google Scholar

McCormick, TH Régression logistique dynamique et calcul de la moyenne d'un modèle dynamique pour la classification binaire. Biométrie 68, 23–30 (2012).

Strobl, AN et al. Améliorer l'évaluation du risque de cancer de la prostate chez les patients : passer de calculateurs de risque statiques appliqués à l'échelle mondiale à des calculateurs de risque dynamiques et spécifiques à la pratique. J. Biomed. Informer. 56, 87-93 (2015).

Article PubMed PubMed Central Google Scholar

Futoma, J., Simons, M., Panch, T., Doshi-Velez, F. & Celi, LA Le mythe de la généralisabilité dans la recherche clinique et l'apprentissage automatique dans les soins de santé. Lancet Digit Health 2, e489–e492 (2020).

Article PubMed PubMed Central Google Scholar

Vokinger, KN, Feuerriegel, S. & Kesselheim, AS Apprentissage continu dans les dispositifs médicaux : plan d'action de la FDA et au-delà. Lancet Digit Health 3, e337–e338 (2021).

Article PubMed Google Scholar

Viering, TJ, Mey, A. & Loog, M. Rendre les apprenants (plus) monotones. Dans : Advances in Intelligent Data Analysis XVIII (eds. Berthold, MR, Feelders, Ad & Krempl, G.) 535–547 https://doi.org/10.1007/978-3-030-44584-3_42 (Springer International Publishing , 2020).

Feng, J., Emerson, S. & Simon, N. Politiques d'approbation pour les modifications apportées aux logiciels basés sur l'apprentissage automatique en tant que dispositif médical : une étude du bio-fluage. Biométrie (2020).

Feng, J., Gossmann, A., Sahiner, B. & Pirracchio, R. Régression logistique bayésienne pour le recalibrage en ligne et la révision des modèles de prédiction des risques avec des garanties de performance. Confiture. Méd. Informer. Assoc. (2022).

Feng, J. Apprendre à approuver en toute sécurité les mises à jour des algorithmes d'apprentissage automatique. Dans : Proc. Conférence sur la santé, l'inférence et l'apprentissage, CHIL'21 164–173 (Association for Computing Machinery, 2021).

Kohane, IS et al. Ce que chaque lecteur devrait savoir sur les études utilisant des données de dossiers de santé électroniques, mais peut avoir peur de le demander. J. Med. Rés Internet. 23, e22219 (2021).

Article PubMed PubMed Central Google Scholar

Beesley, LJ et al. Le paysage émergent de la recherche en santé basée sur les biobanques liées aux dossiers de santé électroniques : ressources existantes, défis statistiques et opportunités potentielles. Statistique. Méd. 39, 773–800 (2020).

Article PubMed Google Scholar

Cosgriff, CV, Stone, DJ, Weissman, G., Pirracchio, R. & Celi, LA Le département d'intelligence artificielle clinique : une condition préalable au succès. Informer sur les soins de santé BMJ. 27, e100183 (2020).

Article PubMed PubMed Central Google Scholar

Sheller, MJ et al. Apprentissage fédéré en médecine : faciliter les collaborations multi-institutionnelles sans partager les données des patients. Sci. Rep. 10, 12598 (2020).

Article PubMed PubMed Central CAS Google Scholar

Warnat-Herresthal, S. et al. Swarm Learning pour un apprentissage automatique clinique décentralisé et confidentiel. Nature 594, 265-270 (2021).

Article CAS PubMed PubMed Central Google Scholar

Administration américaine des aliments et médicaments. Système sentinelle : stratégie à 5 ans 2019-2023. Technologie. (2019).

Harvey, H. & Cabitza, F. Les algorithmes sont-ils les nouveaux médicaments ? Réflexions pour une culture d'évaluation d'impact et de vigilance. Dans : IADIS International Conference ICT, Society and Human Beings 2018 (eds. Macedo, M. & Kommers, P.) (partie de MCCSIS 2018) (2018).

Cabitza, F. & Zeitoun, J.-D. La preuve du pudding : à la louange d'une culture de validation dans le monde réel pour l'intelligence artificielle médicale. Ann Transl Med 7, 161 (2019).

Article PubMed PubMed Central Google Scholar

Johnson, AE et al. MIMIC-III, une base de données de soins intensifs librement accessible. Sci Data 3, 160035 (2016).

Article CAS PubMed PubMed Central Google Scholar

Zeileis, A., Leisch, F., Hornik, K. & Kleiber, C. strucchange : un package r pour tester le changement structurel dans les modèles de régression linéaire. J. Logiciel statistique. Articles 7, 1 à 38 (2002).

Google Scholar

Bifet, A., Holmes, G., Kirkby, R. & Pfahringer, B. MOA : analyse massive en ligne. J.Mach. Apprendre. Rés. 11, 1601-1604 (2010).

Google Scholar

Montiel, J., Read, J., Bifet, A. & Abdessalem, T. Scikit-multiflow : un framework de streaming multi-sorties. J.Mach. Apprendre. Rés. 19, 1–5 (2018).

Google Scholar

Télécharger les références

Les auteurs sont reconnaissants à Charles McCulloch, Andrew Auerbach, Julian Hong et Linda Wang, ainsi qu'aux relecteurs anonymes, pour leurs commentaires utiles. Le Dr Bishara est financé par la Foundation for Anesthesia Education and Research.

Département d'épidémiologie et de biostatistique, Université de Californie, San Francisco, Californie, États-Unis

Jean Fang

Bakar Computational Health Sciences Institute, Université de Californie à San Francisco, San Francisco, Californie, États-Unis

Jean Feng, Andrew Bishara & Romain Pirracchio

Département de biostatistique, Université de Californie, Berkeley, Californie, États-Unis

Rachael V. Phillips, Ivana Malenica et Alan E. Hubbard

Département d'anesthésie, Université de Californie, San Francisco, Californie, États-Unis

Andrew Bishara et Romain Pirracchio

Institute for Medical Engineering and Science, Massachusetts Institute of Technology, Département de médecine, Beth Israel Deaconess Medical Center; Département de biostatistique, Harvard TH Chan School of Public Health, Boston, MA, 02115, États-Unis

Léo A. Celi

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

JF : conceptualisation, investigation, rédaction et édition de manuscrits, supervision ; VPR : enquête, rédaction et édition de manuscrits ; MI : investigation, rédaction et édition de manuscrits ; AB : enquête, édition de manuscrits ; AH : édition de manuscrits ; LC : édition de manuscrits ; RP : conceptualisation, rédaction et édition du manuscrit, supervision

Correspondance à Jean Feng.

Le Dr Bishara est co-fondateur de Bezel Health, une entreprise qui développe des logiciels pour mesurer et améliorer les interventions de qualité des soins de santé. D'autres auteurs déclarent qu'il n'y a pas d'intérêts concurrents.

Note de l'éditeur Springer Nature reste neutre en ce qui concerne les revendications juridictionnelles dans les cartes publiées et les affiliations institutionnelles.

Libre accès Cet article est sous licence Creative Commons Attribution 4.0 International, qui permet l'utilisation, le partage, l'adaptation, la distribution et la reproduction sur n'importe quel support ou format, à condition que vous accordiez le crédit approprié à l'auteur ou aux auteurs originaux et à la source, fournissez un lien vers la licence Creative Commons et indiquez si des modifications ont été apportées. Les images ou tout autre matériel tiers dans cet article sont inclus dans la licence Creative Commons de l'article, sauf indication contraire dans une ligne de crédit au matériel. Si le matériel n'est pas inclus dans la licence Creative Commons de l'article et que votre utilisation prévue n'est pas autorisée par la réglementation légale ou dépasse l'utilisation autorisée, vous devrez obtenir l'autorisation directement du détenteur des droits d'auteur. Pour voir une copie de cette licence, visitez http://creativecommons.org/licenses/by/4.0/.

Réimpressions et autorisations

Feng, J., Phillips, RV, Malenica, I. et al. Amélioration de la qualité de l'intelligence artificielle clinique : vers une surveillance et une mise à jour continues des algorithmes d'IA dans les soins de santé. npj Chiffre. Méd. 5, 66 (2022). https://doi.org/10.1038/s41746-022-00611-y

Télécharger la citation

Reçu : 16 novembre 2021

Accepté : 29 avril 2022

Publié: 31 mai 2022

DOI : https://doi.org/10.1038/s41746-022-00611-y

Toute personne avec qui vous partagez le lien suivant pourra lire ce contenu :

Désolé, aucun lien partageable n'est actuellement disponible pour cet article.

Fourni par l'initiative de partage de contenu Springer Nature SharedIt

Médecine naturelle (2023)

Médecine des communications (2023)

npj Médecine numérique (2022)

Journal d'imagerie numérique (2022)

PARTAGER