banner

Nouvelles

Sep 15, 2023

Détection et classification faiblement supervisées du carcinome basocellulaire à l'aide d'un graphique

Rapports scientifiques volume 13, Numéro d'article : 7555 (2023) Citer cet article

328 accès

3 Altmétrique

Détails des métriques

Les taux d'incidence élevés de carcinome basocellulaire (CBC) entraînent une charge importante pour les laboratoires de pathologie. Le processus de diagnostic standard prend du temps et est sujet à la variabilité interpathologiste. Malgré l'application d'approches d'apprentissage en profondeur dans le classement d'autres types de cancer, il existe peu de littérature sur l'application des transformateurs de vision au BCC sur des images de diapositives entières (WSI). Un total de 1832 WSI de 479 BCC, divisés en ensembles de formation et de validation (1435 WSI de 369 BCC) et de test (397 WSI de 110 BCC), ont été faiblement annotés en quatre sous-types d'agressivité. Nous avons utilisé une combinaison d'un réseau de neurones graphiques et d'un transformateur de vision pour (1) détecter la présence d'une tumeur (deux classes), (2) classer la tumeur en sous-types à faible et à haut risque (trois classes) et (3) classer quatre sous-types d'agressivité (cinq classes). En utilisant un modèle d'ensemble composé des modèles de la validation croisée, des précisions de 93,5 %, 86,4 % et 72 % ont été obtenues sur deux, trois et cinq classifications de classe, respectivement. Ces résultats montrent une grande précision à la fois dans la détection des tumeurs et dans le classement des BCC. L'utilisation de l'analyse WSI automatisée pourrait augmenter l'efficacité du flux de travail.

Le carcinome basocellulaire est la forme la plus courante de cancer de la peau chez l'homme. L'incidence est aussi élevée que l'incidence de tous les autres cancers combinés1. De plus, le nombre de cas de CBC augmente à l'échelle mondiale2,3,4. Bien que les métastases et la mort soient rares, les CBC peuvent entraîner une morbidité importante en raison d'une croissance locale agressive et destructrice5.

Les CBC sont un groupe hétérogène de tumeurs avec différents modèles de croissance. À l'échelle internationale, les CBC sont classés en deux grandes catégories en fonction des caractéristiques histopathologiques : les sous-types à faible risque et à haut risque6. Ces catégories peuvent ensuite être classées en sous-classes. Les pathologistes suédois, par exemple, classent les CBC selon le « modèle Sabbatsberg » qui comprend trois catégories de risque : (a) les sous-types « peu agressifs » qui sont ensuite divisés en superficiel (type Ib) et nodulaire (type Ia), et (b ) « moyennement agressif » (type II) qui comprend des sous-types infiltrants moins agressifs qui se développent de manière plus bien définie et plus superficiellement par rapport aux tumeurs hautement agressives et (c) « hautement agressifs » (type III), plus sous-types de formes agressives, infiltrantes et morphées7. L'évaluation correcte du sous-type est cruciale pour planifier le traitement approprié. Cependant, il existe une variabilité inter-pathologiste significative lors du classement des tumeurs8 et de la déclaration du sous-type9,10.

De plus, étant donné le processus fastidieux d'évaluation des lames histologiques combiné à un nombre croissant d'échantillons, cela retarde le diagnostic et augmente les coûts11. Pour réduire le temps de diagnostic et les variations inter-observateurs, des approches d'apprentissage en profondeur12 ont été activement étudiées. L'apprentissage en profondeur permet la mise en œuvre de l'analyse d'images computationnelle en pathologie, ce qui offre la possibilité d'augmenter la précision de la classification et de réduire la variabilité interobservateur13,14. Fait intéressant, même des caractéristiques morphologiques inconnues associées au risque métastatique, à la survie sans maladie et au pronostic peuvent être révélées15,16.

Dans les premiers travaux de recherche, les méthodes d'histologie computationnelle nécessitaient des annotations au niveau des pixels, c'est-à-dire la délimitation de régions spécifiques sur le WSI par les pathologistes17. Cependant, l'utilisation d'annotations au niveau des pixels prend du temps. De plus, ces approches ne se généralisent pas aux données du monde réel18. Comme alternative, un cadre d'apprentissage faiblement supervisé a été une méthode largement adoptée pour la classification WSI. La technique courante dans l'apprentissage faiblement supervisé est l'apprentissage multi-instance (MIL)19. Cette approche peut utiliser des étiquettes de niveau WSI, c'est-à-dire des étiquettes non associées à une région spécifique, sans perte de performances20. La technique traite l'ensemble d'instances (correctifs d'un WSI) comme un sac. La simple instance d'un patch de cas positif rend le sac (WSI), positif, sinon, il est traité comme négatif. MIL exige que le WSI soit partitionné en un ensemble de correctifs, souvent sans avoir besoin de curation de données18.

Les travaux ultérieurs ont de plus en plus ajouté un paradigme d'apprentissage contrastif auto-supervisé dans l'extraction de meilleurs vecteurs de caractéristiques. Dans ces paradigmes, les modèles CNN pré-formés sont réglés à l'aide d'un cadre d'apprentissage contrastif de manière confinée21. L'ajout de ces composants dans les approches MIL s'est avéré offrir de meilleures performances22,23. Cependant, le cadre MIL suppose fondamentalement que les correctifs sont distribués de manière indépendante et identique, en négligeant la corrélation entre les instances19,24. Négliger la corrélation affecte la performance globale des modèles de classification. Au lieu de cela, la corrélation spatiale peut être capturée à l'aide des réseaux de neurones graphiques, ce qui à son tour augmente les performances du modèle25,26,27.

Récemment, Transformers28 a fait un grand bond en avant sur le front de l'IA en introduisant la capacité d'incorporer du contexte parmi une séquence de jetons dans des tâches de traitement du langage naturel, par exemple GPT-329. Inspirés par le succès des transformateurs dans le traitement du langage naturel, Dosovitskiy et al.30 ont proposé Vision Transformer (ViT), une méthode pour les tâches de classification d'images qui prend des fragments d'une image en entrée. Cela permet de capturer la séquence de patchs (jetons) et de prendre en compte la position des images (contexte) à l'aide d'intégrations positionnelles. La prise en compte de la relation positionnelle (informations contextuelles) montre que ViT peut être plus performant que CNN, en particulier lors de l'utilisation de caractéristiques obtenues à partir de modèles contrastifs auto-supervisés. De plus, les transformateurs de vision nécessitent beaucoup moins de données et de ressources de calcul par rapport à de nombreuses approches basées sur CNN30,31. De plus, la résistance relative au bruit, au flou, aux artefacts, aux changements sémantiques et aux échantillons hors distribution pourrait contribuer à de meilleures performances32.

Dans les images médicales, les transformateurs ont été appliqués dans les tâches de classification, de segmentation, de détection, de reconstruction, d'amélioration et d'enregistrement des images32. Plus précisément, dans les images histologiques, les transformateurs de vision ont été appliqués avec succès à différentes tâches liées aux images histologiques, notamment dans la détection des métastases du cancer du sein et dans la classification des sous-types de cancer du poumon, du rein et du cancer colorectal33,34. Compte tenu du succès des transformateurs de vision dans de nombreuses applications médicales et de la capacité des réseaux de neurones graphiques à capturer la corrélation entre les patchs, nous adoptons la combinaison de réseaux de neurones graphiques et de transformateurs pour détecter et classer les BCC.

Les précisions des ensembles composés des 5 modèles de transformateurs de graphe sur l'ensemble de test étaient de 93,5 %, 86,4 % et 72,0 % pour les tâches de classification à deux classes, trois classes et cinq classes, respectivement. De plus, la sensibilité de détection de la peau saine et des tumeurs a atteint respectivement 96 % et 91,9 %. Les performances des modèles d'ensemble sur l'ensemble de test sont résumées dans le tableau 1 et les matrices de confusion associées sont illustrées à la figure 1. La figure 2 montre la courbe ROC moyenne des modèles de validation croisée séparés par rapport à l'ensemble de test. Des cartes thermiques ont été utilisées pour visualiser les régions de WSI qui sont fortement associées à l'étiquette. La figure 3 montre les régions tumorales de différents sous-types de BCC qui ont été correctement identifiées par un modèle Graph-Transformer.

Matrices de confusion des modèles d'ensemble pour les trois tâches de classification différentes (T) sur l'ensemble de test. (a) classification binaire (T1, tumeur ou pas de tumeur), (b) classification en trois classes (T2, pas de tumeur et deux grades de tumeur), (c) classification en cinq classes (T3, pas de tumeur et quatre grades de tumeur).

Courbes ROC moyennes des modèles de validation croisée quintuples basées sur un ensemble de tests pour les différentes tâches de classification (T). (a) classification binaire (T1), (b) classification à trois classes (T2), (c) classification à cinq classes (T3).

Visualisation des cartes d'activation de classe (lignes 2 et 3) et des images H&E correspondantes (lignes 1 et 4). Les cartes d'activation de classe sont construites pour la tâche de classification binaire (pas de tumeur, tumeur) avec les zones de tumeur soulignées. Des exemples représentatifs sont présentés pour les quatre grades de BCC : (a) superficiel faiblement agressif, (b) nodulaire faiblement agressif, (c) moyennement agressif, (d) hautement agressif. Les rangées 3 et 4 représentent des images rapprochées des zones marquées de cases noires. Les diapositives ont été recadrées pour se concentrer sur le tissu après l'exécution du modèle.

Dans cet article, nous avons utilisé un transformateur de graphe pour la détection et la classification des WSI d'extraction avec BCC. La méthode d'apprentissage en profondeur développée a montré une grande précision à la fois dans la détection et le classement des tumeurs. L'utilisation de l'analyse d'image automatisée pourrait augmenter l'efficacité du flux de travail. Compte tenu de la sensibilité élevée de la détection des tumeurs, le modèle pourrait aider les pathologistes à identifier les lames contenant la tumeur et à indiquer les régions tumorales sur les lames et éventuellement à réduire le temps nécessaire au processus de diagnostic dans la pratique quotidienne. L'utilisation d'un classement automatisé des tumeurs de haute précision pourrait encore faire gagner du temps et potentiellement réduire la variabilité inter- et intra-pathologistes.

Notre étude est parmi les premières à appliquer deux et quatre niveaux de BCC sur WSI en utilisant des approches d'apprentissage en profondeur. Notre méthode a atteint des valeurs AUC élevées de 0,964–0,965, 0,932–0,975 et 0,843–0,976 sur deux, trois (deux grades) et cinq classes (4 grades), respectivement. Auparavant, Campanella et al.18 utilisaient un ensemble de données beaucoup plus important de 44 732 WSI au total, dont 9 962 diapositives avec un large éventail de lésions cutanées néoplasiques et non néoplasiques, dont 1 659 étaient des CBC. Ils ont atteint une grande précision dans la détection des tumeurs et ont suggéré que jusqu'à 75 % des lames pouvaient être retirées en toute sécurité de la charge de travail des pathologistes. Fait intéressant, Gao et al.35 ont comparé les WSI et les images oculaires microscopiques capturées par smartphone des CBC pour la détection des tumeurs avec une sensibilité et une spécificité élevées pour les deux approches. Cependant, aucun classement des tumeurs n'a été appliqué dans ces études. À notre connaissance, il n'y a pas d'ensemble de données open source sur le classement du BCC. Il est donc difficile de comparer les résultats de ce travail par rapport à une situation de référence. L'un des avantages de notre étude est que les données sont disponibles sous la forme d'un ensemble de données ouvertes, ce qui permettra de progresser dans ce domaine.

Dans une autre étude concernant les modèles d'attention de détection BCC de l'IA ont été comparés aux modèles d'attention des pathologistes et ont observé que les réseaux de neurones distribuent leur attention sur de plus grandes zones tissulaires intégrant le tissu conjonctif dans sa prise de décision36. Notre étude a utilisé un apprentissage faiblement supervisé, où les étiquettes ont été attribuées au niveau de la diapositive. Cette approche, au lieu de se concentrer sur de petites zones annotées pixel par pixel, donne à l'algorithme la liberté d'évaluer des zones plus vastes, y compris le stroma tumoral. De plus, l'annotation par diapositive prend beaucoup moins de temps que les annotations par pixel.

Une limite de notre étude est la taille quelque peu limitée de l'ensemble de données. Au fur et à mesure que le nombre de classes augmente, les performances diminuent considérablement. Cela pourrait être attribué à un nombre réduit de WSI par classe dans l'ensemble de formation. Par exemple, il était plus difficile pour le modèle de différencier le sous-type BCC Ia et le sous-type Ib dans les tâches de classification à 5 classes, mais relativement plus facile de différencier les classes d'agressivité faible et élevée dans la tâche de classification à 3 classes, Fig. 2. Avec la disponibilité de plus de données, les performances augmenteraient très probablement.

Même si ce travail n'a pas fait d'analyse systématique de la variabilité inter-observateur, les deux pathologistes impliqués dans l'annotation de l'ensemble de données en 4 grades différents (classification en 5 classes) différaient dans 6,7% des WSI. L'annotation de ces WSI a été corrigée par consensus avec un troisième pathologiste senior, ce qui n'est pas le cas dans les situations réelles. L'utilisation d'outils, comme celui proposé dans ce travail, réduirait probablement la variabilité inter-pathologistes. D'autres études sur le sujet sont justifiées.

Une limite dans notre étude est le déséquilibre dans l'ensemble de données dans différentes tâches. Nous avons inclus plusieurs (1 à 18 lames) par tumeur. Chaque lame a été classée individuellement. Même si nous voulions inclure autant de WSI dans chaque groupe de tumeurs, il y avait des différences entre les groupes. Les tumeurs les plus agressives étaient plus grosses et avaient donc plus de lames. De plus, le fait qu'au sein d'une même tumeur plusieurs sous-types de CBC aient été présentés a affecté le nombre de WSI dans chaque groupe. Puisque nous avons inclus plusieurs lames de la même tumeur, toutes les lames n'ont pas montré de tumeur. Ainsi, au total, 744 diapositives incluses représentaient une peau saine, comme indiqué dans le tableau 2. Cela a provoqué un déséquilibre dans l'ensemble de données, en particulier dans les tâches 2 et 3 où le plus grand groupe était la peau saine. De plus, le fait que quelques cas de CBC n'aient montré aucune lame tumorale pourrait être dû au fait que certaines lames ont dû être retirées en raison de la mauvaise qualité de la numérisation.

De plus, de nombreux WSI avaient des sous-types composites et ceux-ci étaient parfois présents sur la même lame. De tels cas sont typiques dans le CBC d'avoir un mélange de plusieurs types, c'est-à-dire des cas avec plus d'un modèle pathologique37. La proportion de cas d'histologie mixte peut atteindre jusqu'à 43 % de l'ensemble des cas38. Jusqu'à 70 % des cas mixtes de CBC peuvent contenir un ou plusieurs sous-types agressifs39. Malgré ces caractéristiques de modèle mixte par WSI, nos modèles ont pu détecter le pire sous-type de BCC par diapositive avec une précision de 86,4 % dans la classification à trois classes et de 72,0 % dans les tâches de classification à cinq classes, comme le montre le tableau 1. .

De plus, chaque lame avait des marques de stylo qui indiquent l'indice d'extraction (correspondant à l'identifiant d'extraction) dans lequel certains cas peuvent être aussi grands que le tissu sur le WSI. Étant donné que l'ensemble de données est divisé en fonction d'un index de patient, les marques de stylo dans l'ensemble d'apprentissage sont différentes de celles de l'ensemble de test et le modèle n'est pas affecté par les similitudes des caractères manuscrits. Les marques de stylo n'ont pas été identifiées comme des tissus par le carreleur et n'ont donc pas été incluses dans les patchs d'entraînement. De plus, les WSI avaient des couleurs et des artefacts différents, des bords de tranche, des incohérences, des petits tissus dispersés, des taches et des trous. Malgré ces variations parmi les WSI, les modèles traitaient les caractères manuscrits comme arrière-plan et les autres variations comme du bruit.

Ce travail, à notre connaissance, est la première approche qui utilise des transformateurs dans le classement de BCC sur WSI. Les résultats montrent une grande précision à la fois dans la détection des tumeurs et dans le classement des BCC. Le déploiement réussi de telles approches pourrait probablement augmenter l'efficacité et la robustesse des processus de diagnostic histologique.

L'ensemble de données a été collecté rétrospectivement à l'hôpital universitaire Sahlgrenska, à Göteborg, en Suède, à partir de la période 2019-2020. L'ensemble de données complet contient 1831 WSI marqués provenant de 479 excisions de BCC (1 à 18 lames de verre par tumeur), tableau 2. Les lames ont été numérisées à l'aide d'un scanner NanoZoomer S360 Hamamatsu à un grossissement de 40X. Les étiquettes des diapositives ont ensuite été supprimées à l'aide d'un package open source appelé anonymize-slide40.

Les dimensions des WSI allaient de 71 424 à 207 360 px, avec des tailles allant de 1,1 Go à 5,3 Go (au total 5,6 To). De plus, presque tous les échantillons avaient plusieurs niveaux de sectionnement par lame de verre. Avant la numérisation, les lames de verre ont été marquées de la lettre « B » et jusqu'à 3 chiffres indiquant quelles lames représentaient la même tumeur.

Les lames numérisées ont ensuite été annotées au niveau WSI en 5 classes (sans tumeur et 4 grades de tumeur BCC), conformément au système de classification suédois. Lorsque plusieurs schémas de croissance des tumeurs ont été détectés, les WSI ont été classés selon le pire sous-type possible. Les annotations ont été effectuées par deux pathologistes séparément. Dans les cas où les deux principaux annotateurs avaient des opinions divergentes (6,7 % des WSI), un troisième pathologiste senior a été recruté et une décision finale d'annotation a été prise par consensus entre les trois pathologistes.

L'ensemble de données a été conçu pour être utilisé pour 3 tâches de classification. La première tâche (T1) consistait à détecter la présence de tumeurs par classification binaire (tumeur ou pas de tumeur). La deuxième tâche (T2) a été classée en trois classes (pas de tumeur, tumeur à faible risque et à haut risque, conformément aux systèmes de notation de l'OMS). La troisième tâche (T3) consistait à classer l'ensemble de données en 5 classes (pas de tumeur et 4 grades de CBC ; superficiel peu agressif, nodulaire peu agressif, moyennement agressif et très agressif, conformément au système de classification suédois). Dans les tâches de classification à deux niveaux, les étiquettes ont été converties en cas de faible agressivité (Ia et Ib) et de forte agressivité (II et III). La figure 4 montre des patchs de BCC et leurs classes correspondantes dans les trois tâches de classification (indiquées par T1, T2 et T3).

Échantillons de sous-types de CBC utilisés dans les trois tâches de classification (T) : T1 (tumeur ou pas de tumeur), T2 (pas de tumeur et deux grades de tumeur) et T3 (pas de tumeur et quatre grades de tumeur), organisés par un pathologiste dans conformément au "modèle Sabbatsberg"7. En fonction de la tâche de classification à accomplir, les échantillons de chaque rangée se voient attribuer un grade de tumeur différent.

Un aperçu de la méthode est présenté à la Fig. 5. Étant donné que les WSI étaient volumineux, les modèles d'apprentissage automatique conventionnels ne pouvaient pas les ingérer directement. Par conséquent, les WSI ont d'abord été carrelés en patchs. Les WSI ont été carrelés en 224 par 224 patchs à un grossissement de 10X sans chevauchement à l'aide d'OpenSlide41. Les patchs avec au moins 15% de zones tissulaires ont été conservés tandis que les autres ont été jetés. Le nombre de correctifs variait de 22 à 14 710 correctifs par WSI. Au total, 5,2 millions de correctifs ont été générés pour l'ensemble de formation. Comme indiqué ci-dessus, il y avait une variabilité entre les WSI, y compris des différences de couleur, des artefacts, etc. Malgré les différences entre les patchs, aucun traitement d'image n'a été effectué avant ou après le carrelage.

Aperçu de la méthode (adapté de Zheng et al.27). Le WSI est d'abord découpé en patchs et en fonctionnalités extraites via un apprentissage auto-supervisé. Les caractéristiques extraites deviennent les nœuds d'un réseau de graphes, qui deviennent les entrées d'un classificateur de transformateur de graphe.

Une fois les correctifs tuilés, les fonctionnalités ont été extraites à l'aide d'un cadre d'apprentissage auto-supervisé, SimCLR21. En utilisant une approche d'apprentissage contrastif, les données ont été augmentées et des sous-images ont ensuite été utilisées pour générer une représentation générique d'un ensemble de données. L'algorithme a alors réduit la distance entre une même image et augmenté la distance entre différentes images (paires négatives)21. Dans cette étape, en utilisant Resnet18 comme épine dorsale et tous les correctifs comme ensemble d'apprentissage, à l'exception des correctifs de l'ensemble de test retenu, un vecteur de caractéristiques pour chaque correctif a été extrait. Pour la formation SimCLR, l'optimiseur Adam avec une décroissance de poids de 10–6 et une taille de lot de 512 et 32 ​​époques ont été utilisés. Le taux d'apprentissage initial 10–4 a ​​été programmé en utilisant le recuit cosinus.

Les caractéristiques générées par l'apprentissage contrastif auto-supervisé ont été utilisées pour construire les réseaux de neurones du graphe. À l'aide de vecteurs de caractéristiques d'apprentissage contrastif de chaque patch ont été extraits. Étant donné que chaque patch est connecté au patch voisin le plus proche par ses bords et ses coins, le carrelage rompt la corrélation entre les patchs. La corrélation entre les patchs est généralement capturée via des intégrations positionnelles30. Étant donné que les patchs histologiques sont spatialement corrélés dans un espace 2D, les incorporations positionnelles pourraient mieux être capturées via un réseau de graphes27.

Un patch est relié à un patch voisin par 4 côtés et 4 coins, donc au total 8 arêtes. Un ensemble de matrices de contiguïté à 8 nœuds a été utilisé pour créer une représentation graphique d'un WSI. Ensuite, l'intégration positionnelle capturée via la matrice d'adjacence est utilisée pour construire un réseau convolutif de graphe. Les vecteurs caractéristiques des patchs sont devenus les nœuds des graphiques.

Zheng et al.27 ont montré les résultats de l'utilisation d'un graphique entièrement connecté, c'est-à-dire un seul tissu par lame. Dans ce travail, nous montrons que la même approche fonctionne avec un graphe déconnecté représentant plusieurs tissus par WSI. Il convient de noter que presque tous les WSI de notre ensemble de données avaient plusieurs tissus par diapositive, c'est-à-dire qu'il n'y avait aucune corrélation entre les tissus séparés en raison de régions non tissulaires. Il en résulte un graphe déconnecté comme le montre la figure 6. Il convient de noter que la distance entre les composants du graphe déconnecté ainsi que leur position dans l'espace n'ont aucun effet sur les performances du modèle.

Un exemple d'un WSI et de son réseau de graphes. (a) WSI avec six sections de tissus, (b) six composants déconnectés d'un réseau de graphes. Les composants déconnectés sont placés aléatoirement dans l'espace. Chaque nœud représente un patch (patchs non représentés sur la figure pour une meilleure visualisation).

Une fois le réseau convolutif du graphe construit, le réseau a été envoyé à un ViT. Généralement, le transformateur applique un mécanisme d'attention qui imite la façon dont les humains extraient des informations importantes d'une image ou d'un texte spécifique, ignorant les informations entourant l'image ou le texte42. L'auto-attention28 a introduit une fonction qui utilise des requêtes, des clés et des vecteurs de valeurs, cartographiés à partir des caractéristiques d'entrée. À l'aide de ces vecteurs, il applique une auto-attention à plusieurs têtes pour extraire des caractéristiques raffinées, ce qui lui permet de comprendre l'image dans son ensemble plutôt que de se concentrer uniquement sur des parties individuelles. En outre, la fonction d'auto-attention est accompagnée d'un bloc de perceptron multicouche (MLP) qui est utilisé pour déterminer les classes. Dans ce travail, nous avons utilisé l'architecture d'encodeur ViT standard avec un réseau convolutif de graphes pour la classification des sous-types BCC.

De plus, le coût de calcul de la formation ViT peut être élevé en fonction de la taille de l'entrée. Le nombre de patchs peut être important en fonction de la taille des images et de la taille des tissus par rapport au WSI. Cela a entraîné un grand nombre de nœuds, qui étaient difficiles à appliquer directement en tant qu'entrée au transformateur. Pour réduire le nombre de nœuds dans la mesure où le ViT peut digérer les entrées, une couche de mise en commun a été ajoutée.

Il y avait 369 extractions (1435 WSI) dans l'ensemble combiné de formation et de validation. Un ensemble de données supplémentaire de 110 extractions (397 WSI) a été scanné séparément pour constituer un ensemble de tests de retenue. L'ensemble de test a été traité séparément et a été retenu à la fois par les modèles SimCLR et par transformateur de graphe.

Pour la formation et la validation, toutes les diapositives relatives à une extraction spécifique ont toujours été placées dans le même ensemble pour éviter les fuites de données à partir de diapositives similaires. Cela a nécessité de diviser l'ensemble de données au niveau de l'extraction, ce qui a entraîné des divisions inégales pour la validation croisée. Par conséquent, une validation croisée quintuple a été utilisée pour la formation. Les sorties des 5 modèles des plis de validation croisée ont été combinées en un modèle d'ensemble par vote majoritaire pour fournir des prédictions finales par rapport à l'ensemble de test. Cette étape a été effectuée séparément pour les tâches de classification à deux, trois et cinq classes, tableau supplémentaire S1.

Lors de la formation des modèles, les mêmes hyperparamètres ont été utilisés pour toutes les tâches. Les modèles ont été configurés avec une taille MLP de 128, 3 blocs d'auto-attention et entraînés avec une taille de lot 4, 100 époques et la décroissance du poids de l'optimiseur Adam 10–5, le taux d'apprentissage 10–3 avec décroissance aux étapes 40 et 80 par 10–1 . La formation a été réalisée sur 2 GPU sur DGX A100. La formation du modèle SimCLR a duré environ 3 jours. La formation pour les transformateurs de graphes a pris environ 25 minutes en moyenne pour converger. Pour un WSI donné dans l'ensemble de test, du pavage à l'inférence, a pris environ 30 s.

Pour visualiser et interpréter les résultats prédits, une cartographie d'activation de classe basée sur un graphique27 a été utilisée. La méthode a calculé la carte d'activation de classe à partir de l'étiquette de classe vers une représentation graphique du WSI en utilisant des cartes de pertinence de transformateur et de graphique précalculées. En utilisant la méthode, des cartes thermiques ont été superposées sur des régions du WSI associées à l'étiquette WSI.

Les ensembles de données générés et/ou analysés au cours de la présente étude sont disponibles sur https://doi.org/10.23698/aida/bccc.

Levell, NJ, Igali, L., Wright, KA & Greenberg, DC Épidémiologie du carcinome basocellulaire au Royaume-Uni : l'éléphant dans la pièce. Clin. Exp. Dermatol. 38, 367–369 (2013).

Article CAS PubMed Google Scholar

Dika, E. et al. Carcinome basocellulaire: Une revue complète. Int. J. Mol. Sci. 21, 5572 (2020).

Article CAS PubMed PubMed Central Google Scholar

Cameron, MC et al. Carcinome basocellulaire. Confiture. Acad. Dermatol. 80, 321–339 (2019).

Article PubMed Google Scholar

Wong, CSM Carcinome basocellulaire. BMJ 327, 794–798 (2003).

Article CAS PubMed PubMed Central Google Scholar

Lo, JS et al. Carcinome basocellulaire métastatique : à propos de douze cas avec revue de la littérature. Confiture. Acad. Dermatol. 24, 715-719 (1991).

Article CAS PubMed Google Scholar

Elder, DE, Massi, D., Scolyer, RA et Willemze, R. Classification OMS des tumeurs cutanées 4e éd. (OMS, Berlin, 2018).

Google Scholar

Jernbeck, J., Glaumann, B. & Glas, JE Carcinome basocellulaire. Evaluation clinique du classement histologique des cancers agressifs. Lakartidningen 85, 3467–70 (1988).

CAS PubMed Google Scholar

Jagdeo, J., Weinstock, MA, Piepkorn, M. & Bingham, SF Fiabilité du diagnostic histopathologique des carcinomes kératinocytaires. Confiture. Acad. Dermatol. 57, 279-284 (2007).

Article PubMed Google Scholar

Lune, DJ et al. Variance des déclarations de sous-types de carcinome basocellulaire selon le milieu de pratique. JAMA Dermatol. 155, 854 (2019).

Article PubMed PubMed Central Google Scholar

Al-Qarqaz, F. et al. Les demandes et les rapports de pathologie du carcinome basocellulaire manquent d'informations importantes. J. Cancer de la peau 2019, 1–5 (2019).

Google Scholar

Migden, M. et al. Fardeau et schémas de traitement du carcinome basocellulaire avancé chez les patients assurés commercialement dans une base de données des États-Unis de 2010 à 2014. J. Am. Acad. Dermatol. 77, 55-62.e3 (2017).

Article PubMed Google Scholar

LeCun, Y., Bengio, Y. & Hinton, G. Apprentissage en profondeur. Nature 521, 436–444 (2015).

Article ADS CAS PubMed Google Scholar

Niazi, MKK, Parwani, AV & Gurcan, MN Pathologie numérique et intelligence artificielle. Lancette Oncol. 20, e253–e261 (2019).

Article PubMed PubMed Central Google Scholar

Komura, D. & Ishikawa, S. Approches d'apprentissage automatique pour le diagnostic pathologique. Arc de Virchow. 475, 131-138 (2019).

Article CAS PubMed Google Scholar

Knuutila, JS et al. Identification du carcinome épidermoïde cutané primaire métastatique à l'aide d'une analyse par intelligence artificielle d'images de diapositives entières. Sci. Rép. 12, 1–14 (2022).

Annonces d'article Google Scholar

Comes, MC et al. Un modèle d'apprentissage en profondeur basé sur des images de diapositives entières pour prédire la survie sans maladie chez les patients atteints de mélanome cutané. Sci. Rep. 12, 20366 (2022).

Article ADS CAS PubMed PubMed Central Google Scholar

Olsen, TG et al. Performances diagnostiques d'algorithmes d'apprentissage profond appliqués à trois diagnostics courants en dermatopathologie. J. Pathol. Informer. 9, 32 (2018).

Article PubMed PubMed Central Google Scholar

Campanella, G. et al. Pathologie computationnelle de qualité clinique utilisant un apprentissage en profondeur faiblement supervisé sur des images de diapositives entières. Nat. Méd. 25, 1301-1309 (2019).

Article CAS PubMed PubMed Central Google Scholar

Carbonneau, M.-A., Cheplygina, V., Granger, E. & Gagnon, G. Apprentissage par instances multiples : Une enquête sur les caractéristiques des problèmes et leurs applications. Reconnaissance de motif. 77, 329–353 (2018).

Annonces d'article Google Scholar

Ilse, M., Tomczak, J. & Welling, M. Apprentissage profond à instances multiples basé sur l'attention. Dans Conférence internationale sur l'apprentissage automatique 2127-2136 (2018).

Chen, T., Kornblith, S., Norouzi, M. & Hinton, G. Un cadre simple pour l'apprentissage contrastif des représentations visuelles. Dans Conférence internationale sur l'apprentissage automatique 1597-1607 (PMLR, 2020).

Li, J. et al. Un modèle multi-résolution pour la classification et la localisation d'images histopathologiques avec apprentissage d'instances multiples. Calcul. Biol. Méd. 131, 104253 (2021).

Article CAS PubMed PubMed Central Google Scholar

Li, B., Li, Y. & Eliceiri, KW Réseau d'apprentissage à instances multiples à double flux pour la classification d'images de diapositives entières avec apprentissage contrastif auto-supervisé. Dans Actes de la conférence IEEE/CVF sur la vision par ordinateur et la reconnaissance de formes (CVPR) 14318–14328 (2021).

Zhou, ZH & Xu, JM Sur la relation entre l'apprentissage multi-instance et l'apprentissage semi-supervisé. ACM Int. Conf. Proc. Ser. 227, 1167-1174 (2007).

Google Scholar

Tu, M., Huang, J., He, X. & Zhou, B. Apprentissage d'instances multiples avec des réseaux de neurones graphiques. prétirage arXiv arXiv:1906.04881 (2019).

Adnan, M., Kalra, S. & Tizhoosh, HR Apprentissage de la représentation d'images d'histopathologie à l'aide de réseaux de neurones graphiques. Dans Actes des ateliers de la conférence IEEE/CVF sur la vision par ordinateur et la reconnaissance de formes (CVPR) 988–989 (2020).

Zheng, Y. et al. Un transformateur de graphe pour la classification d'images de diapositives entières. arxiv.org (2022).

Vaswani, A. et al. L'attention est tout ce dont vous avez besoin. Avancées dans les systèmes de traitement de l'information neuronale 30 (NIPS) (2017).

Brown, TB et al. Les modèles de langage sont des apprenants peu nombreux. Avancées dans les systèmes de traitement de l'information neuronale 33 (NeurIPS) (2020).

Dosovitskiy, A. et al. Une image vaut 16x16 Mots : Transformateurs pour la reconnaissance d'images à grande échelle. arxiv.org (2020).

Deininger, L. et al. Une étude comparative entre les transformateurs de vision et les CNN en pathologie numérique. arxiv.org (2022).

Li, J. et al. Transformer l'imagerie médicale avec Transformers ? Un examen comparatif des principales propriétés, des progrès actuels et des perspectives futures. arxiv.org (2022).

Shao, Z. et al. Transmil : Apprentissage d'instances multiples corrélé basé sur un transformateur pour la classification d'images de diapositives entières. Dans procedures.neurips.cc (2021).

Zeid, MA-E., El-Bahnasy, K. & Abo-Youssef, SE Classification multiclasse des images histologiques du cancer colorectal à l'aide de transformateurs de vision. En 2021, dixième Conférence internationale sur l'informatique et les systèmes d'information intelligents (ICICIS) 224–230 (IEEE, 2021). https://doi.org/10.1109/ICICIS52592.2021.9694125.

Jiang, YQ et al. Reconnaître le carcinome basocellulaire sur des images d'histopathologie numériques capturées par smartphone avec un réseau neuronal profond. Br. J. Dermatol. 182, 754–762 (2020).

Article CAS PubMed Google Scholar

Kimeswenger, S. et al. Les réseaux de neurones artificiels et les pathologistes reconnaissent les carcinomes basocellulaires sur la base de différents modèles histologiques. Mod. Pathol. 34, 895–903 (2021).

Article PubMed Google Scholar

Crowson, AN Carcinome basocellulaire : biologie, morphologie et implications cliniques. Mod. Pathol. 19, S127–S147 (2006).

Article PubMed Google Scholar

Cohen, PR, Schulze, KE & Nelson, BR Carcinome basocellulaire avec histologie mixte : une pathogenèse possible du cancer de la peau récurrent. Dermatol. Surg. 32, 542-551 (2006).

CAS PubMed Google Scholar

Kamyab-Hesari, K. et al. Précision diagnostique de la biopsie à l'emporte-pièce dans le sous-typage du carcinome basocellulaire. Bibliothèque en ligne Wiley 28, 250–253 (2014).

CAS Google Scholar

Gilbert, B. Anonymize-slide. https://github.com/bgilbert/anonymize-slide.

Goode, A., Gilbert, B., Harkes, J., Jukic, D. & Satyanarayanan, M. OpenSlide : une base logicielle indépendante du fournisseur pour la pathologie numérique. J. Pathol. Informer. 4, 27 (2013).

Article PubMed PubMed Central Google Scholar

Bahdanau, D., Cho, KH & Bengio, Y. Traduction automatique neurale en apprenant conjointement à aligner et à traduire. 3e Conférence internationale sur les représentations de l'apprentissage, ICLR 2015 : Actes de la piste de conférence (2015).

Télécharger les références

L'étude a été financée par des subventions de l'État suédois dans le cadre de l'accord entre le gouvernement suédois et les conseils de comté, l'accord ALF (Grant ALFGBG-973455).

Financement en libre accès fourni par l'Université de Göteborg.

AI Suède, Göteborg, Suède

Film Yacob

Centre de compétences en IA, Hôpital universitaire Sahlgrenska, Göteborg, Suède

Filmon Yacob, Juulia T. Suvilehto, Lisa Sjöblom & Magnus Kjellberg

Département de médecine de laboratoire, Institut de biomédecine, Académie Sahlgrenska, Université de Göteborg, Göteborg, Suède

Jan Siarov, Kajsa Villiamsson & Noora Neittaanmäki

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Conception et conception : FY, JS, KV, JTS, NN Développement de la méthodologie : FY, JTS Acquisition des données : JS, KV, NN Annotation du jeu de données : JS, KV, NN, Analyse et interprétation des données : FY, JTS, JS , KV, NN Rédaction, relecture et révision du manuscrit : FY, JS, KV, JTS, NN, LS, Direction de l'étude : NN, JTS, MK Acquisition des financements : NN, MK

Correspondance à Noora Neittaanmäki.

Les auteurs ne déclarent aucun intérêt concurrent.

Springer Nature reste neutre en ce qui concerne les revendications juridictionnelles dans les cartes publiées et les affiliations institutionnelles.

Libre accès Cet article est sous licence Creative Commons Attribution 4.0 International, qui permet l'utilisation, le partage, l'adaptation, la distribution et la reproduction sur n'importe quel support ou format, à condition que vous accordiez le crédit approprié à l'auteur ou aux auteurs originaux et à la source, fournir un lien vers la licence Creative Commons et indiquer si des modifications ont été apportées. Les images ou tout autre matériel de tiers dans cet article sont inclus dans la licence Creative Commons de l'article, sauf indication contraire dans une ligne de crédit au matériel. Si le matériel n'est pas inclus dans la licence Creative Commons de l'article et que votre utilisation prévue n'est pas autorisée par la réglementation légale ou dépasse l'utilisation autorisée, vous devrez obtenir l'autorisation directement du détenteur des droits d'auteur. Pour voir une copie de cette licence, visitez http://creativecommons.org/licenses/by/4.0/.

Réimpressions et autorisations

Yacob, F., Siarov, J., Villiamsson, K. et al. Détection et classification faiblement supervisées du carcinome basocellulaire à l'aide d'un transformateur de graphe sur des images de diapositives entières. Sci Rep 13, 7555 (2023). https://doi.org/10.1038/s41598-023-33863-z

Télécharger la citation

Reçu : 20 janvier 2023

Accepté : 20 avril 2023

Publié: 09 mai 2023

DOI : https://doi.org/10.1038/s41598-023-33863-z

Toute personne avec qui vous partagez le lien suivant pourra lire ce contenu :

Désolé, aucun lien partageable n'est actuellement disponible pour cet article.

Fourni par l'initiative de partage de contenu Springer Nature SharedIt

En soumettant un commentaire, vous acceptez de respecter nos conditions d'utilisation et nos directives communautaires. Si vous trouvez quelque chose d'abusif ou qui ne respecte pas nos conditions ou directives, veuillez le signaler comme inapproprié.

PARTAGER