banner

Nouvelles

Sep 11, 2023

L'apprentissage automatique identifie des règles d'alerte précoce simples pour les épidémies humaines d'hantavirus Puumala

Rapports scientifiques volume 13, Numéro d'article : 3585 (2023) Citer cet article

523 accès

2 Altmétrique

Détails des métriques

Les infections par le virus Puumala humain (PUUV) en Allemagne fluctuent sur plusieurs années, suite aux fluctuations de la taille de la population de campagnols roussâtres. Nous avons appliqué une transformation aux valeurs d'incidence annuelles et établi une méthode heuristique pour développer un modèle simple et robuste pour le risque d'infection humaine binaire au niveau du district. Le modèle de classification a été alimenté par un algorithme d'apprentissage automatique et a atteint une sensibilité de 85 % et une précision de 71 %, malgré l'utilisation de seulement trois paramètres météorologiques des années précédentes comme entrées, à savoir la température du sol en avril de deux ans avant et en septembre de l'année précédente. année, et la durée d'ensoleillement en septembre des deux années précédentes. De plus, nous avons introduit l'indice des épidémies PUUV qui quantifie la synchronie spatiale des épidémies locales de PUUV, et l'avons appliqué aux sept épidémies signalées au cours de la période 2006-2021. Enfin, nous avons utilisé le modèle de classification pour estimer l'indice d'épidémie PUUV, atteignant une incertitude maximale de 20 %.

Les conditions environnementales déclenchées par le changement climatique jouent un rôle de plus en plus important dans la propagation des maladies infectieuses zoonotiques, en modifiant les habitats naturels des animaux, en influençant la disponibilité de la nourriture et même en entraînant des changements dans la répartition des espèces. Dans ce cadre, nous avons développé un modèle simple basé sur les conditions météorologiques pour le risque d'infection humaine par le Puumala Orthohantavirus (PUUV) en Allemagne.

Le PUUV est l'hantavirus le plus répandu en Europe, transmis par les campagnols roussâtres (Clethrionomys glareolus, syn. Myodes glareolus). Le PUUV peut provoquer une fièvre hémorragique légère à modérée avec syndrome rénal (néphropathie épidémique) avec un taux de létalité de 0,1 à 0,4 %. Les infections PUUV humaines fluctuent sur plusieurs années. Récemment, il y a eu plusieurs années avec \(>{1000}\) cas annuels signalés en Allemagne2, généralement et à grande échelle en raison de l'intensité du mât du hêtre (Fagus spec.), comme indiqué dans le passé pour la Belgique3,4 et pour l'Allemagne5 ,6.

Les mécanismes sous-jacents du taux de transmission des PUUV à l'homme semblent trop complexes pour être modélisés directement, car ils dépendent de l'abondance des populations de campagnols roussâtres, de leur prévalence de PUUV et de l'interaction homme-campagnol roussâtre ; qui fluctuent dans le temps et varient localement. Néanmoins, les conditions météorologiques peuvent être utilisées comme prédicteurs du risque d'infection par les PUUV humains, car la fluctuation des populations de campagnols roussâtres est fortement corrélée aux paramètres météorologiques des deux années précédentes7, alors que la prévalence des PUUV dépend principalement de l'abondance des campagnols roussâtres3,8, 9.

Nous avons sélectionné des districts allemands avec un nombre significatif d'infections humaines et d'incidence en 2006-2021, et inspecté les corrélations de l'incidence annuelle des PUUV avec les paramètres météorologiques mensuels au niveau du district. Nous avons effectué une transformation de données qui met en évidence la synchronie spatiale de la fluctuation temporelle de l'incidence PUUV. Cette transformation a permis de développer un modèle de classification binaire basé sur des machines à vecteurs de support (SVM) pour les épidémies liées au district, applicable dans tout le pays et basé uniquement sur des paramètres météorologiques facilement accessibles. En outre, nous avons introduit l'indice d'épidémie PUUV (POI) comme indicateur du risque annuel d'infection humaine par PUUV. Le POI permet pour la première fois une définition sans ambiguïté d'une épidémie PUUV, compte tenu de l'ampleur locale de l'incidence PUUV. La définition des POI est indépendante des infections annuelles totales, mais leurs valeurs sont fortement corrélées. Enfin, nous avons appliqué le modèle de classification binaire au POI et montré que seulement trois valeurs de paramètres météorologiques suffisent pour donner une bonne estimation. Le modèle POI combiné peut être appliqué comme une règle empirique simple pour la détection des années à haut risque. Un tel modèle peut être utilisé pour interpréter les foyers de PUUV, mais aussi pour obtenir des approximations sur la dynamique des rongeurs. Ceci est très important pour soutenir les stratégies et les décisions pour la protection de la santé humaine et des plantes.

Sur la base des valeurs locales d'infection et d'incidence, nous avons sélectionné 66 districts en Allemagne, où le PUUV était constamment présent de 2006 à 2021 (Fig. 1). Les districts sélectionnés représentent 10 090 infections PUUV humaines, soit 89,9 % du nombre total d'infections signalées dans tout le pays au cours de cette période (Fig. 1, dégradé rouge). Les districts sont regroupés en quatre groupes, concordant avec la limite hypothétique de l'aire de répartition de la lignée évolutive du campagnol de rivage occidental10 et comprenant tous les clades moléculaires PUUV détectés jusqu'à présent11,12,13. Le premier groupe (Fig. 1, contour cyan) contient 10 districts entre la Basse-Saxe et la Rhénanie du Nord-Westphalie, à la frontière avec les Pays-Bas, et correspond aux clades du Münsterland et de la forêt de Teutoburg. Le deuxième cluster (Fig. 1, contour vert) comprend 2 districts dans le sud-ouest de la Rhénanie du Nord-Westphalie, tous deux du clade de la Rhénanie. Le plus grand cluster (Fig. 1, contour violet) contient 50 districts dans un couloir vertical central d'une longueur d'environ 450 km et d'une largeur maximale d'environ 200 km, s'étendant de la Hesse et de la Thuringe, à travers la Bavière, jusqu'au sud de Baden- Wurtemberg à la frontière avec la Suisse. Ce groupe comprend les clades moléculaires PUUV du nord-est d'Essen, de la forêt de Spessart, du Jura souabe et de la forêt de Thuringe. Enfin, le dernier cluster (Fig. 1, contour bleu) contient 4 districts de l'est de la Bavière à la frontière avec la République tchèque, avec le clade moléculaire PUUV de la forêt bavaroise.

Sélection des quartiers pour l'analyse. Les 66 districts sélectionnés à travers l'Allemagne sont affichés en dégradé rouge en fonction de leurs infections PUUV totales en 2006-2021. La barre de couleurs est linéaire dans la plage [0, 50] et à l'échelle logarithmique dans [50, 650] pour une visibilité accrue. Il y avait 26 districts de Bade-Wurtemberg (BW), 16 de Bavière (BY), 8 de Hesse (HE), 3 de Basse-Saxe (NI), 10 de Rhénanie-du-Nord-Westphalie (NW), 1 de Rhénanie-Palatinat ( RP) et 2 de Thuringe (TH). Des lignes noires épaisses séparent les états fédéraux ; des lignes colorées épaisses séparent quatre groupes de clades moléculaires PUUV détectés, comme décrit dans le texte. D'autres districts sont affichés en dégradé de gris avec la même mise à l'échelle de la barre de couleurs. La carte a été générée à l'aide du package geopandas v0.9.0 (https://geopandas.org) en Python v3.8.5. De plus amples informations sur les données brutes, le traitement et la visualisation sont fournies dans la section Méthodes.

Il y avait 12 districts qui sont des combinaisons d'un district urbain avec son district rural voisin ou environnant, indiqué dans le tableau supplémentaire 1. Les seuls districts urbains qui sont restés séparés étaient Cologne (Köln), Münster et Stuttgart, dont les zones sont nettement étendues.

Nous avons appliqué une transformation logarithmique aux valeurs d'incidence, suivie d'une classification binaire individuelle pour chaque district. Les deux classes résultantes ont été étiquetées "à faible risque" et "à haut risque". Une « éclosion » locale s'est produite au cours d'une année où l'incidence dans un district a été classée dans la catégorie à incidence élevée des valeurs enregistrées. L'incidence dans les districts pour les années sans épidémie était nulle ou considérée comme faible par rapport aux valeurs enregistrées dans ce district spécifique. Sur un total de 1056 observations (16 ans \(\fois\) 66 districts), 682 ont été classés à faible risque (65 %) et 374 ont été classés à haut risque (35 %). Au total, 8 779 infections ont été enregistrées dans les observations attribuées à la classe à haut risque, soit 87 % du nombre total d'infections incluses dans cette analyse (ou 78 % du nombre total d'infections en Allemagne en 2006-2021).

Comme la classification binaire était basée sur le district, la même valeur d'incidence peut être attribuée à un risque faible ou à un risque élevé, selon le district (Fig. 2).

Les valeurs d'incidence annuelle dans les districts sélectionnés de 2006 à 2021. Les 66 districts sont classés par l'incidence annuelle maximale. Le bac à faible risque est indiqué par des triangles bleus (sur le côté gauche du tracé). Le bac à haut risque est indiqué par des losanges rouges (sur le côté droit du tracé). Les triangles et les losanges pleins indiquent la valeur moyenne pour chaque bac. Les lignes pleines mettent en évidence la plage d'incidence pour chaque classe. Les espaces blancs entre les lignes bleues et rouges indiquent la séparation entre les deux bacs pour chaque quartier. L'axe des x est linéaire dans la plage [0, 1] et à l'échelle logarithmique dans [1, 110] pour une visibilité accrue. La convention de nommage correspond à celle de la version allemande de SurvStat@RKI 2.0. LK : arrondissement rural (du Landkreis allemand) et SK : arrondissement urbain (du Stadtkreis allemand).

Sur la base des épidémies locales, nous avons développé l'indice d'épidémie PUUV (POI) comme indicateur du risque annuel d'infection humaine par PUUV en Allemagne, c'est-à-dire pour l'épidémie mondiale de PUUV. La valeur de chaque année dans le POI a été définie comme la proportion de districts auxquels un risque d'infection élevé a été attribué pour cette année (tableau 1) :

Les années avec \(>{900}\) nombre total d'infections signalées dans les districts sélectionnés ont une valeur de POI de \(>\text{50\%}\).

Notre groupe initial de prédicteurs comprenait les paramètres météorologiques mensuels des deux années précédentes. Nous avons sélectionné le triple de variables ayant conduit au modèle de classification optimal pour l'incidence binarisée log-transformée : la température du sol en avril de deux ans avant (V2_ST_4), la durée totale d'ensoleillement en septembre de deux ans avant (V2_SD_9), et la température du sol en septembre de l'année précédente (V1_ST_9). Le modèle résultant avait une précision de 82,6 %, une sensibilité de 84,8 %, une précision de 71,4 %, une spécificité de 81,4 % et un score F1 de 0,775. Les éléments de la matrice de confusion étaient : vrais négatifs \({\text{TN}}={555}\) (53 % du total des 1056 observations), faux négatifs \({\text{FN}}={57} \) (5 %), faux positifs \({\text{FP}}={127}\) (12 %), et vrais positifs \({\text{TP}}={317}\) (30 % ). 5 classifications à haut risque sur 7 étaient correctes (précision) et près de 6 observations à haut risque réelles sur 7 ont été correctement classées (sensibilité). Les observations en faux négatifs totalisaient 301 infections, soit 3,5 % des infections dans les observations réelles à haut risque (ou 3,0 % du total des infections).

Pour les couples (V2_SD_9, V1_ST_9) et (V2_ST_4, V1_ST_9) les deux classes de risque étaient bien linéairement séparables, avec sensibilité \(>\text{77\%}\) et précision \(>\text{67\%}\ ) (Fig. 3a,b). Les paramètres météorologiques sont pour la plupart spatialement uniformes. Ainsi, les observations de chaque année ont formé des grappes dans l'espace d'entrée 3D de notre modèle. Les valeurs des variables météorologiques pour ces "centres de cluster" étaient les valeurs moyennes annuelles sur l'ensemble de l'Allemagne.

Vues du modèle. Nuages ​​de points 2D avec les 1056 observations de 2006 à 2021 pour les trois paires de variables du modèle 3D sélectionné. V1_ST_9 en (a) et (b) : la température moyenne du sol en septembre de l'année précédente, V2_SD_9 en (a) et (c) : la durée totale d'ensoleillement en septembre des deux années précédentes, et V2_ST_4 en (b) et ( c) : la température moyenne du sol en avril des deux années précédentes. Le jaune (code couleur hexadécimal #FDE725FF) correspond aux observations à faible risque, tandis que l'indigo (code couleur hexadécimal #440154FF) correspond aux observations à haut risque. Les marqueurs x rouges superposés indiquent les valeurs des variables de chaque année moyennées sur l'ensemble de l'Allemagne, appelées centres de cluster. Les marqueurs losanges rouges indiquent les valeurs moyennes sur l'Allemagne pour 2022 (marqueurs pleins) et pour 2023 (marqueurs vides).

En raison du regroupement des variables météorologiques et de la séparation des données de chaque année, le modèle a classé tous les districts de chaque année dans la même classe de risque. Les seules exceptions étaient 2006 et 2021, les années dont les grappes étaient les plus proches de la limite de classe planaire. Pour l'année 2006, 58 districts ont été classés dans la classe à faible risque et 8 dans la classe à haut risque. Pour 2021, 40 districts ont été classés dans la classe à haut risque et 26 dans la classe à faible risque. Toutes les observations de 2007, 2010, 2012, 2015, 2017 et 2019 ont été classées dans la classe à haut risque, ce qui les a désignées comme années d'éclosion PUUV ; tandis que toutes les observations de 2008, 2009, 2011, 2013, 2014, 2016, 2018 et 2020 ont été classées dans la classe à faible risque.

La précision annuelle la plus élevée était de 98 % pour 2009 (1 FN). Pendant sept années supplémentaires, une précision annuelle \(>\text{90\%}\) a été atteinte, c'est-à-dire 2012 pour les années d'éclosion et 2008, 2011, 2013, 2016, 2018 et 2020 pour les années sans éclosion. La précision annuelle la plus faible était de 41 % pour 2015 (39 FP), suivie de 65 % pour 2021 (12 FP et 11 FN). Pour 2014, les seules mauvaises classifications étaient les faux négatifs (15 FN, 77 % de précision). La précision la plus élevée a été obtenue dans le Bade-Wurtemberg (90 %) et la plus faible en Rhénanie du Nord-Westphalie (66 %) et en Basse-Saxe (69 %). Il y avait 6 districts du Bade-Wurtemberg, 2 de Bavière et 1 de Hesse avec une précision de 100 %. 15 autres districts n'avaient qu'une seule fausse classification (9 FP et 6 FN). Les nombres maximum de faux négatifs provenaient des districts de Borken et de Bentheim, avec respectivement 7 FN et 6 FN. Borken avait également la précision la plus faible parmi les districts avec 44% (7 FN et 2 FP).

Selon notre modèle de classification, un hyperplan séparait les deux classes de risque. Cet hyperplan était une frontière plane dans l'espace 3D :

Sur la base de ce plan, nous pourrions définir le risque d'infection binaire par rapport à V1_ST_9, la dernière variable météo qui devient disponible avant la prédiction :

où nous avons arrondi les coefficients à trois chiffres significatifs. Dans les éq. (2)–(4), les unités pour les températures ST sont le °C et pour la durée d'ensoleillement SD sont les heures. Pour minimiser les erreurs d'arrondi, ST doit avoir une précision d'au moins deux décimales et SD d'au moins une décimale.

La distance des centres de cluster à partir de la limite plane du modèle de classification (équation 2) peut servir de mesure qualitative du risque global d'infection PUUV. La figure 4 montre le POI pour 2006-2021 par rapport à la distance du centre de cluster correspondant à la limite plane. Les observations forment deux groupes : pour \({\text{distance}}_{\text{t}}>-\text{0.03}\) (une distance positive signifie que l'observation est au-dessus de la frontière par rapport à V1_ST_9 ; il y a donc un risque d'infection élevé pour cette année) et pour \({\text{distance}}_{\text{t}}<-\text{0.37}\) (une distance négative signifie que l'observation est inférieure à la frontière par rapport à V1_ST_9 ; il y a donc un faible risque d'infection pour cette année-là). Nous avons comparé les moyennes des groupes par une ANOVA à un facteur avec la fonction f_oneway de la bibliothèque SciPy14. Sur la base de la valeur F de 97 et de la valeur p de 1,1 × 10−7, nous avons conclu que les moyennes des deux groupes étaient statistiquement significativement différentes.

Estimation de l'indice d'épidémie PUUV à partir du modèle de classification. La proportion de districts à haut risque pour chaque année, qui a été définie comme l'indice d'épidémie PUUV, est tracée par rapport à la distance de la limite plane des centres de cluster, c'est-à-dire des points définis par les valeurs moyennes des paramètres météorologiques sur l'Allemagne cette année-là. Les lignes pointillées rouges montrent un ajustement constant par morceaux aux données (pseudo-R2 = 0,87, calculé selon 15). La zone ombrée en rouge indique l'incertitude. La zone hachée pour les distances dans l'intervalle \(\text{[}-\text{0.37,}-\text{0.03]}\) représente l'incertitude accrue sur la position de la discontinuité.

Nous avons appliqué une fonction constante par morceaux comme fit ; pour chaque groupe, nous avons supposé une valeur constante pour le POI, définie par la moyenne des valeurs enregistrées de ce groupe. L'erreur standard de la moyenne était de 2,21 % pour le groupe à faible risque (\({\text{distance}}_{\text{t}}<-\text{0,37}\)) et de 6,77 % pour le groupe à risque élevé. -groupe à risque (\({\text{distance}}_{\text{t}}>-\text{0.03}\)). Pour les distances dans l'intervalle \(\text{[}-\text{0.37,}-\text{0.03]}\), où l'étape s'est produite et aucune observation n'était disponible, aucune estimation n'a pu être générée. Avec une incertitude égale à trois fois l'erreur type de la moyenne, nous pourrions estimer le POI pour l'année \({\text{t}}\) comme :

Nous avons appliqué une méthode rigoureuse et exhaustive pour sélectionner le triple optimal de variables météorologiques pour un modèle qui prédit le risque d'infection humaine PUUV. Le modèle de classification résultant avait un pouvoir explicatif élevé avec une sensibilité de près de 85 % et une précision de plus de 70 %. Bien que notre méthode puisse ne pas donner le maximum global par rapport à un critère de performance spécifique, elle évite d'inclure des variables fortement corrélées et elle est tenue d'avoir une sensibilité et une précision élevées. Un classificateur avec seulement deux variables serait plus simple et facile à saisir. Bien que l'ajout d'une troisième variable n'augmente que marginalement les performances, il rend le modèle plus robuste et moins sujet aux variables cachées. En augmentant encore les dimensions, on s'attend à ce que la séparation des deux classes de risque soit plus facile, même si rien n'indique que les classes soient effectivement parfaitement séparables linéairement. Les paramètres météorologiques de l'année réelle influencent à la fois les populations de campagnols roussâtres16,17 et les activités humaines18, ainsi que leur interaction, et devraient donc entraîner les infections signalées d'une manière qui ne peut pas être encapsulée par un modèle de prédiction avec des variables du Les années précédentes. Notre classificateur est essentiellement un modèle de prédiction de la production de graines de hêtre et de l'abondance des campagnols roussâtres. Par conséquent, il peut également être appliqué pour les stratégies de gestion des rongeurs et de protection des plantes.

Notre analyse suppose que les corrélations entre les paramètres météorologiques et les infections PUUV humaines sont les mêmes pour tous les districts et sont invariantes dans le temps, c'est-à-dire qu'elles restent constantes dans le temps, ce qui permet de considérer chaque observation comme indépendante. Une hypothèse sous-jacente supplémentaire était que la surveillance des maladies à hantavirus et l'impact de toute contre-mesure restent constants dans chaque district, bien qu'ils puissent différer d'un district à l'autre.

Notre méthode révèle une forte influence du risque d'infection à partir des paramètres météorologiques en avril et septembre des deux années précédentes, et à partir du mois de septembre précédent. De plus, une variable météorologique du mois de septembre précédent était contenue dans toutes les paires de variables avec la performance optimale, ce qui place la prévision la plus précoce possible au début d'octobre de l'année précédente. Cela devrait laisser suffisamment de temps pour préparer des contre-mesures et sensibiliser les autorités sanitaires, les groupes à risque et les médecins au risque du virus.

Les variables météorologiques des deux années précédentes étaient très probablement liées à la production de graines de hêtre de l'année précédente, qui à son tour détermine la disponibilité de la nourriture et régit la croissance des populations de campagnols roussâtres4,6. Une augmentation de la température du sol à l'automne de l'année précédente pourrait entraîner une population initiale plus importante pour l'année suivante, en facilitant les dernières semaines de la saison de reproduction et en augmentant le taux de survie des rongeurs.

Ce modèle estime le risque d'infection PUUV, et il est donc susceptible d'être biaisé positivement par rapport aux infections ou à l'incidence signalées. Par conséquent, nous devrons peut-être accepter des surestimations (faux positifs). Une inspection minutieuse de plusieurs sous-estimations (faux négatifs) est fournie dans la note complémentaire 1. Nous émettons l'hypothèse que de nombreuses sous-estimations de la Basse-Saxe et de la Rhénanie du Nord-Westphalie n'étaient pas dues à une épidémie locale, mais plutôt à une augmentation de la PUUV-baseline dans des districts spécifiques, en raison de changements dans le système de notification et d'une sensibilisation accrue des services de santé locaux. Une autre possibilité est que la saison PUUV commence plus tôt dans le nord de l'Allemagne par rapport aux autres clusters PUUV. Enfin, ces infections peuvent être liées à une propagation PUUV depuis les Pays-Bas voisins.

La binarisation de l'incidence suggère une synchronisation spatiale des épidémies de PUUV en Allemagne. Ceci s'oppose à un rapport récent sur le manque de synchronie en 201919, mais est en bon accord avec des études antérieures11,20. L'introduction du POI permet la définition sans ambiguïté d'une année d'épidémie, ce qui peut à son tour faciliter le transfert des résultats de prédiction par le biais des médias et d'autres communications publiques. Une valeur élevée du POI indique un risque accru pour une grande partie des districts. Cette méthode peut être facilement étendue pour décrire les épidémies de toute maladie infectieuse zoonotique avec fluctuation temporelle et inhomogénéité spatiale.

Notre modèle de classification peut être appliqué comme une règle empirique simple pour la détection des années à haut risque, bien qu'il ne soit pas strictement développé en tant que modèle de prédiction et qu'il ne soit pas encore validé en tant que tel. En le combinant avec le POI, nous pouvons prédire les années d'épidémie. Cette méthode n'offre pas d'informations spatiales détaillées, car elle utilise des paramètres météorologiques qui forment des constellations et peut donc être considérée comme spatialement uniforme sur de vastes zones. Néanmoins, une telle prédiction peut améliorer l'état de préparation et sensibiliser à la détection du virus et au risque d'infection humaine. Nous avons appliqué ce concept pour estimer le risque d'infection PUUV en Allemagne en 2022. Les valeurs des clusters de centres 2022 (Fig. 3) n'ont pas été observées au cours de la période 2006-2021, ni au cours des années précédentes 2002-2005. Ainsi, les valeurs d'incidence de cette année permettront d'affiner les coefficients du modèle et de diminuer son incertitude. La distance entre le cluster central de 2022 et la limite linéaire du modèle est \(-\text{1.08}\), donc un faible risque global d'infection PUUV est attendu. En appliquant l'Eq. (5), la valeur prédite dans le POI est \(\text{7.7\%}\pm \text{6.6\%}\), c'est-à-dire que seuls 1 à 10 districts environ sont susceptibles de signaler un nombre relativement élevé d'infections en 2022. La distance entre le cluster central de 2023 et la limite linéaire du modèle est \(-\text{0.35}\) ; cette valeur tombe à l'intérieur de l'intervalle d'incertitude accrue de l'Eq. (5) et ne permet pas une estimation définitive du risque global d'infection PUUV. Application des éq. (3) et (4) au niveau du district, 11 districts de Basse-Saxe et de Rhénanie du Nord-Westphalie sont dans la classe à haut risque et sont donc susceptibles de signaler un nombre relativement élevé d'infections en 2023. Cela conduit à un POI attendu de 16,7 %.

Les données sur la couverture terrestre et l'utilisation des terres n'ont pas été incluses dans ce modèle, mais ont été précédemment signalées comme des prédicteurs généraux possibles de la prévalence du PUUV chez le campagnol roussâtre21 et de l'incidence du PUUV chez l'homme17,22. Nous considérons que ces effets sont incorporés dans la transformation de l'incidence basée sur le district, c'est-à-dire que la couverture terrestre ou l'utilisation des terres peut en effet déterminer l'ampleur locale de l'incidence PUUV, mais ils n'influencent pas la probabilité d'une épidémie.

À l'avenir, cette approche pourra être complétée par des informations spatiales, en incluant une variable variant dans le temps et spatialement non uniforme, par exemple, l'intensité du mât de hêtre ou l'intensité de la floraison du hêtre comme approximations de la production de graines de hêtre. Une telle variable peut augmenter la séparation entre les observations de 2006 et 2021, de part et d'autre de la limite de décision ; deux ans avec des constellations météorologiques relativement similaires mais des valeurs d'incidence nettement différentes. Les années 2014 et 2015 sont les valeurs aberrantes qui ne semblent pas s'inscrire raisonnablement dans les classes à faible risque et à haut risque, suggérant l'existence d'une troisième classe à risque moyen. Cependant, les observations actuellement disponibles ne suffisent pas à distinguer une telle classe.

Nous avons effectué l'acquisition, le traitement, l'analyse et la visualisation des données à l'aide de Python23 version 3.8 avec les packages Numpy24, Pandas25, Geopandas26, Matplotlib27, Selenium, Beautiful Soup28, SciPy14 et scikit-learn29. Les fonctions utilisées pour des tâches spécifiques sont explicitement mentionnées pour permettre des études de validation et de réplication.

La maladie à hantavirus est à déclaration obligatoire en Allemagne depuis 2001. L'Institut Robert Koch collecte des données anonymisées auprès des services de santé publique locaux et nationaux et propose via l'application SurvStat2 une version limitée et gratuite de sa base de données à des fins de recherche et d'information. Nous avons récupéré les infections PUUV humaines signalées et confirmées en laboratoire (\({\text{n}}=\text{11,228}\) de 2006 à 2021, état : 2022-02-07). A partir des attributs disponibles pour chaque cas, nous avons récupéré la résolution temporelle et spatiale la plus fine, c'est-à-dire la semaine et l'année de notification, ainsi que le district (nommé « County » dans la version anglaise de l'interface SurvStat).

Pour éviter les biais dus à la sous-déclaration, notre ensemble de données a été limité aux infections PUUV depuis 2006. Les années 2006 à 2021 contiennent 91,9 % du nombre total de cas de 2001 à 2021. L'incidence humaine PUUV a été calculée comme le nombre d'infections pour 100 000 personnes, par en utilisant les données démographiques d'Eurostat30. Pour chaque année, nous avons utilisé la population déclarée au 1er janvier de cette année. La population de 2020 a également été utilisée pour 2021.

Dans l'analyse, nous n'avons inclus que les districts où le nombre total d'infections était de \(\ge {20}\) et l'incidence annuelle maximale était de \(\ge {2}\) au cours de la période 2006-2021. Les informations spatiales sur les infections fournies par l'application SurvStat font référence au district où l'infection a été signalée. Ainsi, dans la plupart des cas, le district déclaré correspond au domicile de la personne infectée, qui peut différer du district d'infection. Pour compenser partiellement les différences entre le lieu de résidence signalé et le lieu d'infection, nous avons combiné la plupart des districts urbains avec leur district rural environnant. L'hypothèse sous-jacente était que la plupart des infections signalées dans les districts urbains se produisaient dans le district rural voisin ou environnant. De plus, certains districts urbains et ruraux ont le même département de santé. Le tableau supplémentaire 1 répertorie les districts combinés.

Du Service météorologique allemand31, nous avons récupéré les grilles des paramètres météorologiques mensuels suivants au-dessus de l'Allemagne de 2004 à 2021 : température moyenne quotidienne de l'air — Tmean, température minimale quotidienne de l'air — Tmin et température maximale quotidienne de l'air — Tmax (toutes les températures sont les moyennes mensuelles de les valeurs journalières correspondantes, à 2 m de hauteur au-dessus du sol, en °C) ; précipitations totales en mm—Pr, durée totale d'ensoleillement en heures—SD, température mensuelle moyenne du sol à 5 ​​cm de profondeur sous un sol typique non couvert de l'emplacement en °C—ST, et humidité du sol sous l'herbe et le loam sableux en pourcentage d'eau utilisable par la plante—SM . La version de l'ensemble de données pour Tmean, Tmin, Tmax, Pr et SD était v1.0 ; pour ST et SM, la version du jeu de données était 0. × . La résolution spatiale était de 1 × 1 km2.

L'acquisition des données a été réalisée avec le package Selenium. Le traitement était basé sur le package geopandas26 utilisant une couche vectorielle géospatiale pour les limites des districts de l'Allemagne32. Chaque grille a été traitée pour obtenir la valeur moyenne du paramètre sur chaque district. Nous avons d'abord utilisé la fonction within pour définir un masque basé sur les centres de grille contenus dans le quartier ; nous avons ensuite appliqué ce masque à la grille. Dans cette méthode, appelée « central point rasterizing »33, chaque rectangle de la grille était affecté à un seul quartier, celui qui contenait son centre. L'erreur de traitement typique a été estimée à environ 1 %, ce qui correspond à l'erreur de rastérisation signalée par Bregt et al.33 ; nous considérons que très probablement cette erreur est nettement inférieure aux incertitudes des grilles elles-mêmes, causées par le calcul, l'interpolation et les observations erronées ou manquantes.

Notre analyse a été effectuée au niveau du district sur la base des infections annuelles, acquises en agrégeant les cas hebdomadaires. A partir de chaque paramètre météorologique mensuel, nous avons créé 24 enregistrements, pour tous les mois des deux années précédentes. Chaque observation de notre ensemble de données caractérisait un district en une année. Sa cible a été acquise en transformant l'incidence annuelle, comme décrit dans la section suivante. Chaque observation comprenait les 168 prédicteurs disponibles à partir des paramètres météorologiques (7 paramètres × 24 mois), appelés par la suite « variables ». La notation pour la dénomination des variables suit le format Vx__, où "Vx" peut être V1 ou V2 qui correspond respectivement à un ou deux ans avant ; est l'abréviation du paramètre météo (voir sous-section précédente : "Données météo" ); et est la valeur numérique du mois, c'est-à-dire de 1 à 12.

Les observations pour les districts combinés ont conservé l'étiquette du district rural. Pour leurs infections et leurs populations, nous avons agrégé les valeurs individuelles et recalculé l'incidence. Pour leurs variables météorologiques, nous avons attribué des valeurs moyennes pondérées par la superficie de chaque district.

Pour prendre en compte les effets qui entraînent la survenue d'une incidence élevée relative au district, nous avons discrétisé l'incidence au niveau du district. L'incidence mise à l'échelle à sa valeur maximale pour chaque district a montré des valeurs extrêmes pour les minima et les maxima. Environ 49 % de toutes les observations se situaient dans la plage [0, 0,1) et 8 % dans la plage [0,9, 1] (Fig. 5). Par conséquent, nous avons spécifiquement choisi de discrétiser l'incidence mise à l'échelle avec deux cases, c'est-à-dire de la binariser.

Histogrammes de l'incidence annuelle des PUUV de 2006 à 2021, ramenée à sa valeur maximale pour chacun des districts sélectionnés. Gauche : incidence brute. Droite : Incidence transformée en log, selon l'Eq. (6).

Nous avons d'abord appliqué une transformation logarithmique aux valeurs d'incidence34, décrites dans l'Eq. (6).

L'ajout d'une constante positive a assuré une valeur non infinie pour l'incidence nulle, avec 1 sélectionné pour que la log-incidence soit non négative, et une incidence nulle a été transformée en une log-incidence nulle. Cette transformation visait à augmenter l'influence des valeurs d'incidence non nulles ; des valeurs qui ne sont pas prononcées, mais qui suggèrent toujours un risque d'infection non nul. Son effet est démontré dans le graphique de droite de la Fig. 5, où l'asymétrie positive des données d'origine est réduite, c'est-à-dire que les valeurs d'incidence faibles sont étendues à des valeurs plus élevées, ce qui donne des hauteurs de bac plus uniformes dans la plage [0,05, 0,95] après la transformation. Formellement, dans ce cas, la transformation logarithmique permet d'obtenir une distribution plus uniforme pour les valeurs d'incidence non extrêmes.

Pour la binarisation, nous avons effectué un regroupement non supervisé de l'incidence transformée en log, séparément pour chaque district, en appliquant la fonction KBinsDiscretizer du package scikit-learn29. Notre stratégie choisie était le clustering k-means avec deux bacs, car il ne nécessite pas de seuil prédéfini, et il peut fonctionner avec le même nombre fixe de bacs pour chaque district, en ajustant automatiquement les centroïdes de cluster en conséquence.

Nous nous sommes concentrés uniquement sur les combinaisons de variables qui ont conduit à une limite de décision linéaire pour la classification de notre cible sélectionnée. Nous avons sélectionné des machines à vecteurs de support (SVM)35 avec un noyau linéaire, car elles combinent des performances élevées avec une faible complexité de modèle, en ce sens qu'elles renvoient la frontière de décision sous la forme d'une équation linéaire des variables. De plus, SVM est géométriquement motivé36 et devrait être moins sujet aux valeurs aberrantes et au surajustement que d'autres algorithmes de classification d'apprentissage automatique, tels que la régression logistique. Pour le processus de modélisation complet, le paramètre de régularisation C a été défini sur 1, c'est-à-dire la valeur par défaut dans la méthode SVC appliquée du package scikit-learn29, et les pondérations pour les deux classes de risque ont également été définies sur 1.

Notre objectif était d'utiliser le plus petit nombre possible de paramètres météorologiques comme variables pour un modèle de classification suffisamment performant. Pour identifier la combinaison de variables optimale, nous avons d'abord appliqué une SVM avec un noyau linéaire pour toutes les combinaisons à 2 variables des variables météorologiques mensuelles de V2 et V1, soit 168 variables (7 paramètres météorologiques × 2 ans × 12 mois). Uniquement pour cette étape, les variables ont été mises à l'échelle à leurs valeurs minimales et maximales, ce qui a considérablement réduit le temps de traitement. Pour toutes les étapes suivantes, le scaler a été omis, car les vecteurs de support non mis à l'échelle étaient nécessaires pour le modèle final. Sur un total de 14 028 modèles pour chaque paire unique (\(\frac{168!}{2!\cdot \left(168-2\right)!}\)), nous avons conservé les 100 modèles avec le meilleur score F1, c'est-à-dire de la moyenne harmonique de la sensibilité et de la précision, et compté les occurrences de chaque combinaison année-mois dans les variables. Le meilleur score F1 était de 0,752 pour la paire (V1_Tmean_9 et V2_Tmax_4) ; et la meilleure sensibilité était de 83 % pour le couple (V2_Tmax_9 et V1_ST_9).

Les combinaisons année-mois avec plus de 10 % d'occurrences étaient : V1_9 (septembre de l'année précédente, avec 49 % d'occurrences), V2_9 (septembre de deux ans avant, avec 12 %) et V2_4 (avril de deux ans avant, avec 10 %). Pour éviter les ensembles avec des variables fortement corrélées, nous avons formé des combinaisons à 3 variables, avec exactement une variable de chaque combinaison année-mois (produit cartésien triple). Parmi les 343 modèles au total (73 combinaisons, c'est-à-dire 7 paramètres météorologiques pour 3 combinaisons année-mois), nous avons sélectionné le modèle avec la meilleure sensibilité et une précision d'au moins 70 %, c'est-à-dire l'ensemble de variables (V2_ST_4, V2_SD_9 et V1_ST_9) . Nous considérons que les critères de cette sélection ne sont pas particulièrement cruciaux ; et nous nous attendons à des performances comparables pour la plupart des ensembles de variables avec un score F1 élevé, car les variables pour chaque dimension du produit cartésien étaient fortement corrélées. Les huit ensembles de variables avec au moins 70 % de précision et au moins 80 % de sensibilité sont présentés dans le tableau supplémentaire 2.

Le classifieur SVM a deux hyperparamètres : le paramètre de régularisation C et les poids de classe. En diminuant C, la frontière de décision devient plus souple et davantage de classifications erronées sont autorisées. D'autre part, en augmentant le poids de la classe à haut risque, les erreurs de classification des observations à haut risque sont pénalisées davantage, ce qui devrait augmenter la sensibilité et diminuer la précision. L'ajustement simultané des deux hyperparamètres garantit que le modèle résultant a les performances optimales par rapport à la métrique préférée. Cependant, afin d'éviter le surajustement, nous avons considéré comme redondant une autre optimisation du modèle avec ces deux hyperparamètres. Pour être complet, nous avons examiné les modèles SVM pour différentes valeurs des hyperparamètres et avons constaté que le maximum global pour le score F1 se situe dans la région de 0,001 pour C et de 1,5 pour le poids de la classe à haut risque. Nos valeurs sélectionnées C = 1 et un poids de classe à haut risque égal à 1 donnent le deuxième meilleur score F1, qui est un maximum local avec des performances comparables, généralement insensible à la sélection de C dans la plage [0,2, 5,5].

L'ajout d'une quatrième variable à partir de V1_6 (juin de l'année précédente) a abouti à un modèle avec une sensibilité plus élevée mais une précision et une spécificité plus faibles (pour V1_Pr_6). Le score F1 le plus élevé a été obtenu pour le quadruple (V2_ST_4, V2_SD_9, V1_ST_9, V1_Pr_6). En raison de la complexité accrue sans amélioration significative des performances, nous avons jugé inutile une extension supplémentaire de notre triplet variable.

Les données à l'appui des conclusions de cette étude sont disponibles auprès de l'auteur correspondant sur demande raisonnable.

Des informations sur les logiciels et packages utilisés sont fournies dans le manuscrit principal. Le code qui prend en charge les résultats de cette étude est disponible auprès de l'auteur correspondant sur demande raisonnable. Des informations supplémentaires sont disponibles pour ce document.

Krüger, DH, Schonrich, G. & Klempa, B. Hantavirus pathogènes humains et prévention des infections. Hum. Vaccin. 7, 685–693 (2011).

Article PubMed PubMed Central Google Scholar

Institut Robert Koch. SurvStat@RKI 2.0, https://survstat.rki.de. (date limite : 2022-02-07).

Tersago, K. et al. Maladie à hantavirus (nephropathia epidemica) en Belgique : effets de la production de semences d'arbres et du climat. Épidémiol. Infecter. 137, 250-256 (2009).

Article CAS PubMed Google Scholar

Clément, J. et al. Relier les incidences croissantes d'hantavirus au changement climatique : la connexion du mât. Int. J. Santé Géogr. 8, 1 (2009).

Article PubMed PubMed Central Google Scholar

Reil, D. et al. Conditions environnementales favorables à une épidémie d'hantavirus en 2015 en Allemagne ?. Santé publique des zoonoses 63, 83–88 (2016).

Article CAS PubMed Google Scholar

Reil, D. et al. Hantavirus en Allemagne : découvertes actuelles sur les agents pathogènes, les réservoirs, la distribution et les modèles de pronostic. Berlin croquer vétérinaire hebdomadaire 131, 453-464 (2018).

Google Scholar

Imholt, C. et al. Quantification de l'impact passé et futur du climat sur les schémas d'épidémies de campagnols roussâtres (Myodes glareolus). Gestion des nuisibles Sci. 71, 166–172 (2015).

Article CAS PubMed Google Scholar

Khalil, H. et al. Dynamique et moteurs de la prévalence de l'hantavirus dans les populations de rongeurs. Dis zoonose à transmission vectorielle. 14, 537–551 (2014).

Article PubMed Google Scholar

Reil, D. et al. Infections à hantavirus Puumala dans les populations de campagnols roussâtres : dynamique des hôtes et des virus en Europe centrale. BMC Écol. 17, 9 (2017).

Article PubMed PubMed Central Google Scholar

Drewes, S. et al. Absence associée à l'hôte d'infections humaines par le virus Puumala dans le nord et l'est de l'Allemagne. Urgence Infecter. Dis. 23, 83–86 (2017).

Article CAS PubMed PubMed Central Google Scholar

Ettinger, J. et al. Multiples épidémies synchrones du virus Puumala, Allemagne, 2010. Emerg. Infecter. Dis. 18, 1461–1464 (2012).

Article PubMed PubMed Central Google Scholar

Faber, M. et al. Caractéristiques moléculaires et épidémiologiques des infections humaines à hantavirus Puumala et Dobrava-Belgrade, Allemagne, 2001 à 2017. Euro Surveill. 24, 1800675 (2019).

Article PubMed PubMed Central Google Scholar

Hofmann, J., Loyen, M., Faber, M. & Krüger, DH Maladies à hantavirus : Une mise à jour. Allemand Méd. 147, 312-318 (2022).

Article CAS PubMed Google Scholar

Virtanen, P. et al. SciPy 1.0 : Algorithmes fondamentaux pour le calcul scientifique en Python. Nat. Méthodes 17, 261–272 (2020).

Article CAS PubMed PubMed Central Google Scholar

Schabenberger, O. & Pierce, FJ Modèles statistiques contemporains pour les sciences des plantes et des sols (CRC Press, 2002).

MATH Google Scholar

Gubler, DJ et al. Variabilité et changement climatiques aux États-Unis : impacts potentiels sur les maladies transmises par les vecteurs et les rongeurs. Environ. Perspective Santé. 109, 223–233 (2001).

PubMed PubMed Central Google Scholar

Vanwambeke, SO et al. Dynamique spatiale d'une maladie zoonotique à orthohantavirus à travers des données hétérogènes sur les rongeurs, les infections des rongeurs et les maladies humaines. Sci. Rep. 9, 2329 (2019).

Article ADS PubMed PubMed Central Google Scholar

Piechotowski, I. et al. Emergence de l'hantavirus en Allemagne du Sud : Rongeurs, climat et infections humaines. Parasitol. Rés. 103(Suppl 1), 131–137 (2008).

Article Google Scholar

Binder, F. et al. Situation de l'orthohantavirus hétérogène de Puumala dans les régions endémiques d'Allemagne à l'été 2019. Transbound Emerg. Dis. 67, 502–509 (2020).

Article PubMed Google Scholar

Cunze, S. et al. Schémas spatiaux et temporels des infections humaines par le virus Puumala (PUUV) en Allemagne. Peer J 6, e4255 (2018).

Article PubMed PubMed Central Google Scholar

Khalil, H. et al. Prévision spatiale et validation du risque zoonotique par les propriétés du micro-habitat : où se niche l'hantavirus de Puumala ?. BMC Infect. Dis. 17, 523 (2017).

Article PubMed PubMed Central Google Scholar

Heyman, P., Thoma, BR, Marie, JL, Cochez, C. & Essbauer, SS À la recherche des facteurs qui favorisent les épidémies d'hantavirus. Devant. Physiol. 3, 237 (2012).

Article PubMed PubMed Central Google Scholar

Van Rossum, G. & Drake, FL Python 3 Reference Manual. (Créer Espace, 2009).

Harris, CR et al. Programmation de tableaux avec NumPy. Nature 585, 357–362 (2020).

Article ADS CAS PubMed PubMed Central Google Scholar

McKinney, W. Structures de données pour le calcul statistique en Python. dans Actes de la 9e conférence Python in Science, Vol. 445, 56–61 (2010).

Jordahl, K. GeoPandas : Outils Python pour les données géographiques. https://github.com/geopaths/geopaths (2014).

Hunter, JD Matplotlib : Un environnement graphique 2D. Calcul. Sci. Ing. 9, 90–95 (2007).

Article Google Scholar

Richardson, L. Belle documentation sur la soupe. https://www.crummy.com/software/BeautifulSoup/bs4/doc/ (2007).

Pedregosa, F. et al. Scikit-learn : Apprentissage automatique en Python. J.Mach. Apprendre. Rés. 12, 2825–2830 (2011).

MathSciNet MATHGoogle Scholar

Eurostat (Office statistique de l'Union européenne). Population Change—Solde démographique et taux bruts au niveau régional (NUTS 3), base de données en ligne. https://ec.europa.eu/eurostat/databrowser/view/demo_r_gind3/default/table. (Dernière mise à jour des données : 2021-03-12 23:00, Récupéré : 2021-03-15).

Centre de données climatiques DWD (CDC). https://opendata.dwd.de/. (Dernière récupération : 2022-01-05).

Esri Allemagne. "Kreisgrenzen 2017", par l'Agence fédérale de cartographie et de géodésie (BKG). https://opendata-esri-de.opendata.arcgis.com/datasets/affd8ace4c204981b5d32070f9547eb9_0. (Dernière mise à jour : 2020-03-17, récupéré : 2021-03-15), utilisé conformément à la licence de données Allemagne - attribution - Version 2.0 disponible sur http://www.govdata.de/dl-de/by- 2-0.

Bregt, AK, Denneboom, J., Gesink, HJ et Van Randen, Y. Détermination de l'erreur de rastérisation une étude de cas avec la carte des sols des Pays-Bas. Int. J. Geogr. Inf. Syst. 5, 361–367 (1991).

Article Google Scholar

Esther, A., Imholt, C., Perner, J., Schumacher, J. et Jacob, J. Corrélations entre les conditions météorologiques et les densités de campagnols communs (Microtus arvalis) identifiées par analyse d'arbre de régression. Application de base Écol. 15, 75–84 (2014).

Article Google Scholar

Cortes, C. & Vapnik, V. Réseaux de vecteurs de support. Mach. Apprendre. 20, 273–297 (1995).

Article MATH Google Scholar

Bennett, K. & Bredensteiner, E. Dualité et géométrie dans les classificateurs SVM. dans Actes de la 17e Conférence internationale sur l'apprentissage automatique, 57–64 (2000).

Télécharger les références

Les auteurs tiennent à remercier Christian Imholt pour les discussions et les conseils. Nous remercions également Paul Beilmann et Johannes Kauffmann pour l'assistance technique, et Anke Geduhn pour les commentaires sur le manuscrit. Cette étude a été commandée par l'Agence allemande pour l'environnement et financée par le ministère fédéral de l'Environnement, de la Conservation de la nature et de la Sûreté nucléaire dans le cadre du plan de recherche départemental - code de recherche 3720 48 401 0.

Financement Open Access activé et organisé par Projekt DEAL.

Institut Julius Kühn (JKI) - Centre fédéral de recherche sur les plantes cultivées, Institut pour la protection des végétaux dans l'horticulture et les forêts / Institut d'épidémiologie et de diagnostic des agents pathogènes, Recherche sur les rongeurs, Toppheideweg 88, 48161, Münster, Allemagne

Orestis Kazasidis et Jens Jacob

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

OK et JJ ont conçu l'étude. OK a développé la théorie, effectué l'analyse et rédigé le manuscrit. OK et JJ ont révisé et édité le manuscrit. JJ a obtenu un financement.

Correspondance à Orestis Kazasidis.

Les auteurs ne déclarent aucun intérêt concurrent.

Springer Nature reste neutre en ce qui concerne les revendications juridictionnelles dans les cartes publiées et les affiliations institutionnelles.

Libre accès Cet article est sous licence Creative Commons Attribution 4.0 International, qui permet l'utilisation, le partage, l'adaptation, la distribution et la reproduction sur n'importe quel support ou format, à condition que vous accordiez le crédit approprié à l'auteur ou aux auteurs originaux et à la source, fournir un lien vers la licence Creative Commons et indiquer si des modifications ont été apportées. Les images ou tout autre matériel de tiers dans cet article sont inclus dans la licence Creative Commons de l'article, sauf indication contraire dans une ligne de crédit au matériel. Si le matériel n'est pas inclus dans la licence Creative Commons de l'article et que votre utilisation prévue n'est pas autorisée par la réglementation légale ou dépasse l'utilisation autorisée, vous devrez obtenir l'autorisation directement du détenteur des droits d'auteur. Pour voir une copie de cette licence, visitez http://creativecommons.org/licenses/by/4.0/.

Réimpressions et autorisations

Kazasidis, O., Jacob, J. L'apprentissage automatique identifie des règles d'alerte précoce simples pour les épidémies humaines d'hantavirus Puumala. Sci Rep 13, 3585 (2023). https://doi.org/10.1038/s41598-023-30596-x

Télécharger la citation

Reçu : 15 juillet 2022

Accepté : 27 février 2023

Publié: 03 mars 2023

DOI : https://doi.org/10.1038/s41598-023-30596-x

Toute personne avec qui vous partagez le lien suivant pourra lire ce contenu :

Désolé, aucun lien partageable n'est actuellement disponible pour cet article.

Fourni par l'initiative de partage de contenu Springer Nature SharedIt

En soumettant un commentaire, vous acceptez de respecter nos conditions d'utilisation et nos directives communautaires. Si vous trouvez quelque chose d'abusif ou qui ne respecte pas nos conditions ou directives, veuillez le signaler comme inapproprié.

PARTAGER