banner

Nouvelles

Oct 01, 2023

Enrichir la collection d'IRM REMBRANDT avec des étiquettes de segmentation expertes et des caractéristiques radiomiques quantitatives

Données scientifiques volume 9, Numéro d'article : 338 (2022) Citer cet article

1784 accès

1 Citations

5 Altmétrique

Détails des métriques

Une correction de l'auteur à cet article a été publiée le 07 juillet 2022

Cet article a été mis à jour

La malignité du cerveau et du SNC est malheureusement un diagnostic courant. Un grand sous-ensemble de ces lésions a tendance à être des tumeurs de haut grade qui laissent présager de mauvais pronostics et de faibles taux de survie, et sont estimées être la dixième cause de décès dans le monde. La nature complexe de l'environnement du tissu cérébral dans lequel ces lésions surviennent offre une riche opportunité pour la recherche translationnelle. L'imagerie par résonance magnétique (IRM) peut fournir une vue complète des régions anormales du cerveau. Par conséquent, ses applications dans la recherche translationnelle sur le cancer du cerveau sont considérées comme essentielles pour le diagnostic et le suivi de la maladie. Ces dernières années ont vu une croissance rapide dans le domaine de la radiogénomique, en particulier dans le domaine du cancer, et les scientifiques ont réussi à intégrer les données quantitatives extraites des images médicales (également appelées radiomiques) à la génomique pour répondre à de nouvelles questions cliniquement pertinentes. Dans cet article, nous avons pris des IRM brutes de la collection de données REMBRANDT du domaine public et effectué une segmentation volumétrique pour identifier les sous-régions du cerveau. Les caractéristiques radiomiques ont ensuite été extraites pour représenter les IRM dans un format quantitatif mais résumé. Cet ensemble de données résultant permet désormais une analyse plus approfondie des données biomédicales et intégratives, et est rendu public via le référentiel NeuroImaging Tools & Resources Collaboratory (NITRC) (https://www.nitrc.org/projects/rembrandt_brain/).

Des mesures)

IRM

Type(s) de technologie

Étiquettes segmentées au format NIFTI

Caractéristique de l'échantillon - Organisme

Un homme sage

Le cancer du cerveau est une maladie mortelle avec un taux de survie à 5 ans d'environ 30 % seulement (www.seer.cancer.gov). Selon l'Observatoire mondial du cancer https://gco.iarc.fr/, il y avait 308 102 cas de cancers du cerveau et du système nerveux central (SNC) dans le monde en 20201 (139 756 étaient des femmes et plus de 168 346 étaient des hommes1 ). Il existe plus de 120 types identifiés de tumeurs cérébrales, selon la National Brain Tumor Society, qui sont de nature extrêmement hétérogène, https://braintumor.org/brain-tumor-information/understanding-brain-tumors/tumor-types/ ce qui en fait une maladie complexe à comprendre et à interpréter. Malgré les progrès réalisés dans les traitements d'autres cancers au cours des 20 dernières années, il n'y a toujours que 5 médicaments approuvés pour traiter les tumeurs cérébrales, et aucune avancée pronostique pour les patients atteints de GBM n'a été observée2. https://braintumor.org/brain-tumor-information/brain-tumor-facts/.

Les technologies d'imagerie médicale, notamment l'imagerie par résonance magnétique (IRM) et la tomodensitométrie (TDM), sont l'une des technologies les plus récentes de plus en plus utilisées dans la recherche en imagerie translationnelle3. En raison de sa nature complexe, l'environnement des tissus cérébraux offre une riche opportunité pour la recherche translationnelle. L'IRM peut fournir une vue complète des régions anormales du cerveau4. Par conséquent, ses applications dans la recherche translationnelle sur le cancer du cerveau sont considérées comme essentielles pour le diagnostic, la surveillance et la gestion de la maladie3.

Ces dernières années, les scientifiques ont pu intégrer les données recueillies à partir d'images médicales avec la génomique, et ce domaine en plein essor s'appelle la radiogénomique5,6,7. Les données d'imagerie sont d'abord converties en un format résumé quantitatif, grâce à des mesures extraites (également appelées radiomics) qui peuvent être à la fois visuelles et sous-visuelles à l'œil nu8. Ces caractéristiques radiomiques permettent une extraction plus poussée des phénotypes d'imagerie, qui peuvent être intégrés aux données génomiques à l'aide d'algorithmes basés sur l'apprentissage automatique (ML) et l'intelligence artificielle (IA). Alors que de nombreux essais cliniques sont en cours pour de nouveaux traitements dans la recherche sur le cancer du cerveau, il existe de nombreuses opportunités pour le développement de nouvelles hypothèses de traitement utilisant des approches radiogénomiques9.

Il existe plusieurs collaborations nationales à grande échelle qui utilisent soit des données sur le cancer du cerveau, soit des technologies liées à l'imagerie médicale pour la recherche translationnelle, notamment la Brain Science Foundation https://www.brainsciencefoundation.org/; Le endbraincancer (EBC) https://endbraincancer.org/end-brain-cancer/; Le Children Brain Tumor Tissue Consortium (CBTTC) https://www.chop.edu/clinical-trial/cbttc-collection-protocol ; Le Children's Brain Tumor Network https://cbtn.org/about-us, The Cancer Imaging Archive (TCIA)10, et plus encore. Cependant, seule une poignée de projets nationaux sur le cancer du cerveau incluent à la fois des données multi-omiques et des données d'imagerie médicale. Ceux-ci incluent The Cancer Genome Atlas (TCGA), qui est une vaste collection de données multi-omiques de 22 types de cancer, y compris les gliomes de grade inférieur (LGG)11,12 et les glioblastomes (GBM)12,13. Les données d'imagerie de la collecte de données TCGA, ainsi que les données d'imagerie d'autres études sont hébergées dans le référentiel de données d'imagerie TCIA accessible au public https://www.cancerimagingarchive.net/. Le National Cancer Institute (NCI) Cancer Research Data Commons (CRDC) donne accès à un écosystème basé sur le cloud avec accès, visualisation et analyse de données d'imagerie multimodales via son portail public. Il permet également aux chercheurs de connecter les données d'imagerie aux données génomiques et protéomiques correspondantes dans les collections CRDC https://portal.imaging.datacommons.cancer.gov/.

Une autre initiative qui comprenait à la fois des données omiques et des images médicales était le projet REMBRANDT (REpository for Molecular BRAin Neoplasia DaTa), une initiative conjointe du NCI et du National Institute of Neurological Disorders and Stroke (NINDS). Ce projet consistait en un vaste ensemble de données dérivées de patients atteints d'un cancer du cerveau contenant des données cliniquement annotées générées par le biais de la Glioma Molecular Diagnostic Initiative (GDMI) à partir de 874 spécimens de gliome comprenant 566 tableaux d'expression génique, 834 tableaux de nombre de copies et 13 472 points de données de phénotype clinique. En 2015, les données moléculaires, y compris l'expression des gènes du microréseau, le nombre de copies et les données cliniques, ont été migrées vers la Georgetown Database of Cancer (G-DOC)14,15. Ce projet a été géré par notre équipe de l'Université de Georgetown, et cet ensemble de données a été rendu public en 2018 via la publication Gusev et al.16, et les données mises à disposition via le référentiel de données NCBI Gene Expression Omnibus (GEO) GSE10847617. Parmi les patients de cette collection REMBRANDT, des images multi-séquences par résonance magnétique (RM) pré-chirurgicales ont été obtenues à partir de 130 patients et sont hébergées sur TCIA18 https://wiki.cancerimagingarchive.net/display/Public/REMBRANDT.

Dans cet article, nous avons obtenu les IRM brutes de la collection REMBRANDT accessible au public et les avons traitées via un pipeline de traitement d'image bien connu, spécialisé pour les IRM du cancer du cerveau. Le flux de travail comprenait une segmentation volumétrique automatisée des IRM qui identifiait diverses sous-régions du cerveau, notamment le noyau nécrotique, l'œdème, la tumeur non rehaussée (NET) et la tumeur rehaussée (ET), la matière grise (GM), la matière blanche (WM) et le céphalo-rachidien. Liquide (LCR). Un radiologue certifié par le conseil a ensuite effectué la vérification et les raffinements des étiquettes segmentées qui comprenaient également les caractéristiques radiomiques extraites. Cela a permis la représentation des scans IRM dans un format quantitatif, avec l'intention de permettre d'autres analyses de données biomédicales et intégratives.

Cet ensemble de données est rendu public dans le référentiel NeuroImaging Tools & Resources Collaboratory (NITRC) via ce lien (https://www.nitrc.org/projects/rembrandt_brain/)19 pour permettre aux chercheurs d'effectuer des analyses basées sur la radiogénomique, d'intégrer l'expression génique et copier les données numériques et permettre de nouvelles découvertes et hypothèses. Le tableau 1 présente un résumé de la collection REMBRANDT sur le cancer du cerveau.

Nous avons d'abord téléchargé les IRM brutes préopératoires à partir des archives d'imagerie TCIA10,20 pour l'ensemble des 130 patients, y compris plusieurs séries pour chaque patient au format de fichier DICOM21. Le radiologue certifié par le conseil a effectué l'étiquetage des IRM de toutes les modalités de l'ensemble de données qui comprenait des IRM de différentes modalités, y compris pondérées en T1, pondérées en T2, pondérées en T1 post-contraste (T1-C) et T2 Fluid- Volumes de récupération par inversion atténuée (FLAIR)22.

Certains scans avaient des modalités mixtes PD et T2 et devaient être séparés en fonction des métadonnées du fichier DICOM. Seuls les patients qui disposaient de données IRM pour les quatre modalités (T1, T2, T1-C et FLAIR) ont été sélectionnés pour l'étape suivante, ce qui a abouti à un ensemble de 72 patients. La figure 1 montre un exemple de quatre modalités du même patient atteint d'un cancer du cerveau.

Un exemple de quatre modalités (pondération T1, pondération T2, pondération T1 post-contraste (T1-C) et FLAIR) du même patient atteint d'un cancer du cerveau (patient # HF1702).

Nous avons ensuite appliqué deux pipelines différents pour le traitement de ces analyses, comprenant deux outils populaires de segmentation du cancer du cerveau : (a) le premier pipeline utilisait l'outil BraTumIA23 (Fig. 2A) et (b) le deuxième pipeline utilisait l'outil GLISTRboost24,25. (Fig. 2B). Notamment, le pipeline basé sur GLISTRboost a été le mieux classé dans le défi international de segmentation multimodale des tumeurs cérébrales 2015 (BraTS'15)26 et utilise un cadre d'attente-maximisation (EM)27 pour cartographier automatiquement les différentes sous-régions des scintigraphies cérébrales tout en tenant compte de déformations cérébrales causées par la tumeur grâce à la modélisation biophysique de la croissance28. Le finaliste de ce défi était l'outil BraTumIA qui utilise un algorithme d'apprentissage automatique23.

(A) Pipeline de segmentation à l'aide de l'outil de segmentation Bratumia. (B) Pipeline de segmentation à l'aide de l'outil de segmentation GLISTRboost.

Une fois les données brutes téléchargées et formatées, nous nous sommes retrouvés avec des IRM de 72 patients avec quatre modalités - pondérée en T1, pondérée en T2, T1-C et FLAIR. Les images ont ensuite été utilisées comme entrée dans l'outil BraTumIA23 qui a effectué en interne toutes les étapes de traitement. Le décapage du crâne a été effectué à l'aide de l'Insight Toolkit ITK29 comme première étape pour générer un masque cérébral, et dans la deuxième étape, les images ont été enregistrées, c'est-à-dire spatialement transformées à l'aide de l'ITK toolkit, de sorte que les voxels des différentes images correspondent les uns aux autres . Les images ont été segmentées en images tumorales et saines à l'aide d'un algorithme basé sur la classification et la régularisation conjointes. Les étiquettes de sortie segmentées étaient dans un format de fichier au format méta-image (.mha) (Fig. 2A).

Le radiologue certifié par le conseil a effectué la vérification des étiquettes segmentées prévues. Un exemple d'étiquettes segmentées pour un patient atteint d'un cancer du cerveau obtenu à l'aide du pipeline BraTumIA est illustré à la Fig. 3

Étiquettes segmentées pour un patient atteint d'un cancer du cerveau (patient n° HF1708) obtenues à l'aide du pipeline BraTumIA. Il montre à quoi ressemblent les IRM dans les quatre modalités.

Les données brutes ont été téléchargées et nettoyées dans un ordre similaire à celui du pipeline précédent pour obtenir des examens IRM de 72 patients avec quatre modalités - pondérées en T1, pondérées en T2, T1-C et FLAIR. Ensuite, plusieurs étapes de pré-traitement ont été appliquées. Les scans IRM ont d'abord été réorientés afin que toutes les images soient transformées dans le même système de coordonnées Left-Post-Superior (LPS) https://www.slicer.org/wiki/Coordinate_systems, une étape nécessaire pour être capable de comparer ou d'intégrer des données obtenues à partir de différentes modalités. Les images ont ensuite été co-enregistrées sur le même modèle anatomique T1 à l'aide de "Greedy" (github.com/pyushkevich/greedy)30, une implémentation C++ basée sur le processeur de l'algorithme d'enregistrement difféomorphique gourmand31. Greedy est intégré au logiciel de segmentation ITK-SNAP (itksnap.org)32,33, ainsi qu'au Cancer Imaging Phenomics Toolkit (CaPTk - www.cbica.upenn.edu/captk)34,35,36,37. Après le co-enregistrement, l'extraction du cerveau (également connue sous le nom de crâne-stripping) a été réalisée à l'aide du Brain Mask Generator (BrainMaGe)38,39, qui est basé sur une architecture de segmentation d'apprentissage en profondeur (à savoir U-Net40) et utilise un nouveau cadre introduisant la forme du cerveau comme préalable et lui permettant ainsi d'être agnostique à la séquence IRM d'entrée. BrainMaGe38,39 a été utilisé pour éliminer les tissus non cérébraux tels que le crâne, le cuir chevelu et la dure-mère des images cérébrales.

Une étape appelée ensemencement était alors réalisée par le radiologue. L'ensemencement impliquait un marquage manuel des sous-régions de l'IRM cérébrale, y compris les régions tumorales, à savoir ET, NET et ED ; et des régions saines, notamment la substance blanche, la matière grise, le LCR, les vaisseaux et le cervelet. Les points de départ comprenaient le centre et le rayon de la tumeur, et des échantillons de points de départ dans chaque sous-région de l'image cérébrale. Cette étape d'ensemencement a permis à l'algorithme de segmentation de modéliser avec précision la distribution d'intensité (moyenne et variance), pour chaque classe de tissu. Cela a permis à l'outil de segmentation de fonctionner avec une plus grande précision par rapport aux autres outils de segmentation. Cette étape a été réalisée à l'aide de la plateforme logicielle CaPTk (Cancer Imaging Phenomics Toolkit)34,35,36,37. Le résultat de cette étape comprenait deux fichiers texte - un contenant des informations sur la tumeur et un autre concernant les points d'échantillonnage dans chaque sous-région. Ces deux fichiers ont été utilisés comme entrée pour l'étape suivante du pipeline.

Une fois ces étapes terminées, une segmentation volumétrique automatisée et un enregistrement ont été effectués à l'aide de GLISTRboost24,25. Au cours du processus de segmentation, les examens IRM de 8 patients ont dû être filtrés pour plusieurs raisons, notamment une faible qualité et une couverture très limitée, ou des résultats peu fiables en raison d'irrégularités dans les examens IRM d'entrée. À la fin de ce pipeline (Fig. 2B), des résultats de segmentation complets ont été obtenus avec succès pour 64 patients. Le tableau 2 présente un résumé des 130 patients d'origine de la cohorte de patients REMBRANDT avant le début de l'analyse, et de la cohorte de 64 patients après l'achèvement de l'étape de segmentation.

Les fichiers de sortie de ce pipeline se présentaient sous la forme de fichiers NIfTI https://nifti.nimh.nih.gov. La figure 4 montre les étiquettes segmentées pour un patient atteint d'un cancer du cerveau obtenues à l'aide du pipeline GLISTRboost.

Étiquettes segmentées pour un patient atteint d'un cancer du cerveau (patient # HF1538) obtenues à l'aide du pipeline GLISTRboost.

Notre radiologue certifié a découvert que l'algorithme BraTumIA n'était efficace que dans la segmentation d'un type de cancer, c'est-à-dire les patients atteints de GBM ; tandis que le pipeline GLISTRboost a produit des étiquettes segmentées plus précises pour tous les sous-types de cancer du cerveau dans cette collecte de données. Pour cette raison, nous avons choisi les étiquettes segmentées du pipeline GLISTRboost pour l'analyse radiomique.

Pyradiomics41, un package python open-source a été utilisé pour extraire les caractéristiques radiomiques des étiquettes segmentées des IRM cérébrales. Il comprenait un total de 120 caractéristiques, qui décrivent diverses propriétés liées aux pixels de l'image médicale, notamment la forme bidimensionnelle et tridimensionnelle, la texture, l'énergie et l'entropie, la taille et la cooccurrence, les différences de tons de gris et plus encore41. Le tableau 3 présente un résumé des différentes classes de caractéristiques caractérisées par la pyradiomique42. Le fichier supplémentaire 1 montre les caractéristiques radiomiques extraites des étiquettes segmentées REMBRANDT du pipeline GLISTRboost.

Les données sur l'expression génique et le nombre de copies de ce même ensemble de données ont été rendues publiques en 2018 par le biais de la publication Gusev et al.16, et les données ont été mises à disposition dans le référentiel de données NCBI Gene Expression Omnibus (GEO) GSE10847617. Les données d'imagerie médicale sous forme d'étiquettes segmentées, ainsi que la sortie numérique de la radiomique seront désormais rendues publiques par le biais de cette publication. Cela permettrait aux chercheurs d'intégrer l'expression des gènes, le nombre de copies et les données d'imagerie médicale du même groupe de patients. De telles analyses radiogénomiques multi-omiques permettraient la recherche et le développement de nouveaux biomarqueurs et des hypothèses de traitement pour la médecine de précision.

Le pipeline de segmentation GLISTRboost utilisé dans cet article a été appliqué aux examens IRM de patients atteints d'un cancer du cerveau TCGA (TCGA-GBM et TCGA-LGG), comme le démontre la publication de Bakas et al.12. Puisque le même pipeline de segmentation GLISTRboost a été appliqué au cancer du cerveau REMBRANDT et TCGA (TCGA-GBM et TCGA-LGG), nous pouvons maintenant les utiliser pour des méta-analyses. Par exemple, l'outil radiomics open source PyRadiomics peut être utilisé sur les deux ensembles de données pour obtenir une sortie radiomics quantitative. Cela signifie que ces deux collections de données pourraient être utilisées ensemble dans une approche de méta-analyse pour fournir une meilleure taille d'échantillon pour les applications d'apprentissage automatique et d'IA. Nous pensons que cela est très précieux et permet une analyse plus approfondie des données biomédicales et intégratives. La sortie radiomics de PyRadiomics du REMBRANDT ; et les collections TCGA-GBM et TCGA-LGG ont été mises à disposition via cette publication en tant que fichier supplémentaire 1 et fichier supplémentaire 2 respectivement.

Une autre application est la plateforme Federated Tumor Segmentation (FeTS)43 qui permet de former des modèles d'apprentissage automatique spécifiques en exploitant les informations recueillies à partir d'ensembles de données sur le cancer du cerveau résidant dans des sites collaborateurs sans jamais échanger les données. Les étiquettes segmentées de nos IRM REMBRANDT font partie de cette fédération mondiale https://www.fets.ai/, et ont permis de très grands modèles d'apprentissage automatique multi-sites dans le but d'accélérer la découverte.

Dans cette publication, nous avons pris les IRM brutes de la collection de données REMBRANDT du domaine public et effectué une segmentation volumétrique pour identifier diverses sous-régions du cerveau. Les caractéristiques radiomiques ont ensuite été extraites pour représenter les scans IRM sous forme numérique. Les données sur l'expression génique et le nombre de copies du même ensemble de données Rembrandt ont été rendues publiques en 2018 par le biais de la publication Gusev et al.16, et les données ont été mises à disposition dans le référentiel de données NCBI Gene Expression Omnibus (GEO) GSE10847617. Cet ensemble de données permet désormais aux chercheurs de poursuivre la recherche translationnelle en utilisant non seulement les données d'imagerie médicale, mais également en conjonction avec les données génomiques et cliniques.

Nous pensons qu'en mettant cet ensemble de données à la disposition de la communauté de la recherche via un référentiel public, nous offrons une opportunité unique de recherche en science des données aux communautés de recherche biomédicale et en science des données. De tels ensembles de données combinés offriraient aux chercheurs une occasion unique de mener une analyse intégrative des données quantitatives des images médicales, de l'expression des gènes et des modifications du nombre de copies, parallèlement aux résultats cliniques (survie globale) dans cette vaste étude sur le cancer du cerveau publiée à ce jour.

Notre radiologue certifié par le conseil a confirmé que l'algorithme BraTumIA n'était efficace que dans la segmentation d'un type de cancer - les patients atteints de GBM. Ceci est mentionné dans le manuel BraTumIA (https://www.nitrc.org/projects/bratumia), et est dû au fait que la morphologie est très différente pour chaque sous-type de cancer, et donc l'outil n'a bien fonctionné que pour les patients GBM

Le radiologue a découvert que l'algorithme GLISTRboost était plus efficace dans la segmentation des différents sous-types de cancers du cerveau dans cet ensemble de données - Astrocytome, Oligodendrogliome et GBM. Une vérification et une correction manuelles ont été effectuées sur les fichiers de sortie étiquetés segmentés. En utilisant une étape d'ensemencement manuel supplémentaire qui a fourni des sous-régions d'échantillons comme référence pour l'algorithme, le pipeline GLISTRboost a pu surmonter la morphologie et d'autres différences dans les différents sous-types de cancers du cerveau dans cet ensemble de données.

Cette vérification et ces corrections ont été effectuées à l'aide d'un logiciel de visionneuse d'IRM MITK44 https://www.mitk.org/. La figure 5 montre un exemple d'image de la façon dont la vérification manuelle a été effectuée.

Illustration de la façon dont le radiologue a effectué une vérification manuelle en utilisant le patient # HF1538 comme exemple.

Nous avons d'abord téléchargé les IRM brutes préopératoires des archives d'imagerie TCIA pour 130 patients. Après le nettoyage, les examens IRM de 72 patients avec des données complètes de quatre modalités ont été choisis pour un traitement ultérieur. Deux pipelines de segmentation du cancer du cerveau bien connus ont été appliqués à l'ensemble de données nettoyées - BraTumIA23 et GLISTRboost24. L'algorithme GLISTRboost24 a été le mieux classé dans le défi international de segmentation d'images de tumeurs cérébrales multimodales 2015 (BraTS'15), et l'algorithme BraTumIA23 a été le finaliste. Après avoir exécuté les pipelines BraTumIA23 et GLISTRboost24, il a été découvert que l'outil BraTumIA23 n'était efficace que dans la segmentation d'un type de cancer - les patients atteints de GBM. Le pipeline GLISTRboost24 a été plus efficace dans la segmentation des différents sous-types de cancers du cerveau dans cet ensemble de données - Astrocytome, Oligodendrogliome et GBM.

Les étiquettes segmentées du pipeline GLISTRboost24, ainsi que les corrections manuelles effectuées par le radiologue ont été rendues publiques via le référentiel NeuroImaging Tools & Resources Collaboratory (NITRC)19. Les données sur l'expression génique et le nombre de copies de ce même ensemble de données ont été rendues publiques en 2018 par le biais de la publication Gusev et al.16, et les données ont été mises à disposition dans le référentiel de données NCBI Gene Expression Omnibus (GEO) GSE10847617. Le tableau 3 présente un résumé de haut niveau de la collection REMBRANDT sur le cancer du cerveau.

Le Madhavan45 et al. La publication qui décrivait à l'origine le portail et l'ensemble de données Rembrandt a permis de nombreuses analyses et a été citée 366 fois à ce jour (en janvier 2022). Les données sur l'expression génique et le nombre de copies de l'ensemble de données REMBRANDT ont été rendues publiques en 2018 par le biais de la publication Gusev et al. à partir de janvier 2022).

Dans cette publication, nous avons pris les IRM brutes de la collection de données REMBRANDT et effectué une segmentation volumétrique pour identifier diverses sous-régions du cerveau. Les caractéristiques radiomiques ont ensuite été extraites pour représenter les scans IRM dans un format quantitatif. Cet ensemble de données permet désormais aux chercheurs d'intégrer l'expression des gènes, le nombre de copies et les données d'imagerie médicale du même ensemble de patients. De telles analyses radiogénomiques multi-omiques permettraient la recherche et le développement de nouveaux biomarqueurs et des hypothèses de traitement pour la médecine de précision.

Le pipeline de segmentation GLISTRboost appliqué dans ce manuscrit a déjà été appliqué aux IRM des patients atteints de cancer du cerveau TCGA (TCGA-GBM et TCGA-LGG) dans la publication de Bakas et al.12. Étant donné que les données d'imagerie des collections REMBRANDT et TCGA sur le cancer du cerveau ont été traitées avec le même pipeline de segmentation, les deux ensembles de données peuvent désormais être utilisés conjointement dans une étude de méta-analyse. Par exemple, l'ensemble de données TCGA sur le cancer du cerveau pourrait être utilisé comme ensemble d'apprentissage, et l'ensemble de données REMBRADNT pourrait être utilisé comme ensemble de tests indépendants dans une telle analyse. Autre exemple : l'outil de radiomique open source PyRadiomics peut être appliqué aux deux ensembles de données pour obtenir une sortie radiomique quantitative. Une telle approche de méta-analyse peut fournir une meilleure taille d'échantillon pour les applications d'apprentissage automatique et d'IA. Nous pensons que cela serait très utile et permettrait une analyse plus approfondie des données biomédicales et intégratives. La sortie radiomics de PyRadiomics du REMBRANDT ; et les collections TCGA-GBM et TCGA-LGG ont été mises à disposition via cette publication en tant que fichier supplémentaire 1 et fichier supplémentaire 2 respectivement.

Une autre application est la plateforme Federated Tumor Segmentation (FeTS)43 qui permet de former des modèles d'apprentissage automatique spécifiques en exploitant les informations recueillies à partir d'ensembles de données sur le cancer du cerveau résidant dans des sites collaborateurs sans jamais échanger les données43. Les étiquettes segmentées de nos IRM REMBRANDT font partie de cette fédération mondiale https://www.fets.ai/. Un tel modèle fédéré a permis de très grands modèles d'apprentissage automatique multisites dans le but d'accélérer la découverte et de créer de nouveaux modèles d'apprentissage automatique avancés.

En résumé, nous pensons qu'en mettant cet ensemble de données à la disposition de la communauté de la recherche via un référentiel public, nous offrons une opportunité unique de recherche en science des données aux communautés de recherche biomédicale et en science des données. De tels ensembles de données combinés offriraient aux chercheurs une occasion unique d'effectuer une analyse intégrative des données numériques des images médicales, de l'expression des gènes et des modifications du nombre de copies, parallèlement aux résultats cliniques (survie globale) dans cette vaste étude sur le cancer du cerveau.

Les images médicales segmentées générées dans ce manuscrit et rendues publiques via le NITRC sont dépouillées du crâne et ne contiennent donc pas d'informations identifiables.

Les méthodes et outils appliqués dans cet article utilisent des outils open-source détaillés dans les publications respectives Bakas et al.12 publication. Le code python pour extraire les fonctionnalités PyRadiomics de Rembrandt et les données segmentées TCGA (fichiers supplémentaires 1 et 2 respectivement) est fourni ici. https://github.com/ICBI/rembrandt-mri.

Une correction à cet article a été publiée : https://doi.org/10.1038/s41597-022-01518-9

Khazaei, Z. et al. L'association entre l'incidence et la mortalité du cancer du cerveau et l'indice de développement humain (IDH): une étude écologique. BMC Public Health 20, 1696, https://doi.org/10.1186/s12889-020-09838-4 (2020).

Article PubMed PubMed Central Google Scholar

Tracy Batchelor, RN, Tarbell, N. & Weller, M. Oxford Textbook of Neuro-Oncology, https://doi.org/10.1093/med/9780199651870.001.0001 (Oxford University Press, 2017).

Vadmal, V. et al. Méthodes et applications d'analyse d'images IRM : une perspective algorithmique prenant comme exemple les tumeurs cérébrales. Neurooncol Adv 2, vdaa049, https://doi.org/10.1093/noajnl/vdaa049 (2020).

Article PubMed PubMed Central Google Scholar

Shukla, G. et al. Imagerie par résonance magnétique avancée dans le glioblastome : une revue. Chin Clin Oncol 6, 40, https://doi.org/10.21037/cco.2017.06.28 (2017).

Article PubMed Google Scholar

Fathi Kazerooni, A., Bakas, S., Saligheh Rad, H. & Davatzikos, C. Signatures d'imagerie des caractéristiques moléculaires du glioblastome : Une revue de radiogénomique. J Magn Reson Imaging 52, 54–69.

Article PubMed Google Scholar

Binder, ZA et al. Les mutations du domaine extracellulaire du récepteur du facteur de croissance épidermique dans le glioblastome présentent des opportunités pour l'imagerie clinique et le développement thérapeutique. Cancer Cell 34, 163–177 e7, https://doi.org/10.1016/j.ccell.2018.06.006 (2018).

Article CAS PubMed PubMed Central Google Scholar

Bakas, S. et al. Détection in vivo de l'EGFRvIII dans le glioblastome via une signature d'imagerie par résonance magnétique de perfusion compatible avec une infiltration péritumorale profonde : l'indice phi. Clin Cancer Res 23, 4724–4734, https://doi.org/10.1158/1078-0432.CCR-16-1871 (2017).

Article CAS PubMed PubMed Central Google Scholar

Zwanenburg, A. et al. L'initiative de normalisation des biomarqueurs d'image : radiomique quantitative normalisée pour le phénotypage basé sur l'image à haut débit. Radiologie 295, 328–338, https://doi.org/10.1148/radiol.2020191145 (2020).

Article PubMed Google Scholar

Rathore, S. et al. Caractérisation multi-institutionnelle non invasive in vivo de l'IDH, de 1p/19q et de l'EGFRvIII dans le gliome à l'aide de la boîte à outils Neuro-Cancer Imaging Phenomics (neuro-CaPTk). Neurooncol Adv 2, iv22-iv34, https://doi.org/10.1093/noajnl/vdaa128 (2020).

Article PubMed Google Scholar

Clark, K. et al. The Cancer Imaging Archive (TCIA) : maintenir et exploiter un référentiel d'informations publiques. J Digit Imaging 26, 1045–57, https://doi.org/10.1007/s10278-013-9622-7 (2013).

Article PubMed PubMed Central Google Scholar

Pedano, N. et al. Données radiologiques de la collection The Cancer Genome Atlas Low Grade Glioma [TCGA-LGG]. Archives d'imagerie du cancer https://doi.org/10.7937/K9/TCIA.2016.L4LTD3TK (2016).

Bakas, S. et al. Faire progresser les collections d'IRM de gliomes de l'Atlas du génome du cancer avec des étiquettes de segmentation expertes et des caractéristiques radiomiques. Sci Data 4, 170117, https://doi.org/10.1038/sdata.2017.117 (2017).

Article PubMed PubMed Central Google Scholar

Scarpace, L. et al. Données radiologiques de la collection The Cancer Genome Atlas Glioblastoma Multiforme [TCGA-GBM] [Ensemble de données]. Les archives d'imagerie du cancer https://doi.org/10.7937/K9/TCIA.2016.RNYFUYE9 (2016).

Madhavan, S. et al. G-DOC : une plateforme de médecine systémique pour l'oncologie personnalisée. Néoplasie 13, 771–83, https://doi.org/10.1593/neo.11806 (2011).

Article PubMed PubMed Central Google Scholar

Bhuvaneshwar, K. et al. G-DOC Plus - une plateforme bioinformatique intégrative pour la médecine de précision. BMC Bioinformatics 17, 193, https://doi.org/10.1186/s12859-016-1010-0 (2016).

Article CAS PubMed PubMed Central Google Scholar

Gusev, Y. et al. L'étude REMBRANDT, une vaste collection de données génomiques de patients atteints d'un cancer du cerveau. Sci Data 5, 180158, https://doi.org/10.1038/sdata.2018.158 (2018).

Article CAS PubMed PubMed Central Google Scholar

Gusev, Y. et al. L'étude REMBRANDT - une grande collection de données génomiques de patients atteints d'un cancer du cerveau (GSE108476). https://identifiers.org/geo:GSE108476 (2018)

Scarpace, L., Flanders, AE, Jain, R., Mikkelsen, T. & Andrews, DW Données de REMBRANDT [Ensemble de données]. Les archives d'imagerie du cancer https://doi.org/10.7937/K9/TCIA.2015.588OZUZB (2019).

Sayah, A. et al. Étiquettes de segmentation pour la collection d'images IRM du cancer du cerveau REMBRANDT. NITRC https://doi.org/10.25790/bml0cm.87 (2021).

Edgar, R., Domrachev, M. & Lash, AE Gene Expression Omnibus : dépôt de données sur l'expression des gènes et l'hybridation du NCBI. Nucleic Acids Res 30, 207–10, https://doi.org/10.1093/nar/30.1.207 (2002).

Article CAS PubMed PubMed Central Google Scholar

Kahn, CE Jr., Carrino, JA, Flynn, MJ, Peck, DJ & Horii, SC DICOM et radiologie : passé, présent et futur. J Am Coll Radiol 4, 652–7, https://doi.org/10.1016/j.jacr.2007.06.004 (2007).

Article PubMed Google Scholar

Currie, S., Hoggard, N., Craven, IJ, Hadjivassiliou, M. & Wilkinson, ID Comprendre l'IRM : physique de base de l'IRM pour les médecins. Postgrad Med J 89, 209–23, https://doi.org/10.1136/postgradmedj-2012-131342 (2013).

Article PubMed Google Scholar

Abu Khalaf, N., Desjardins, A., Vredenburgh, JJ & Barboriak, DP Répétabilité de la segmentation automatisée des images avec BraTumIA chez les patients atteints de glioblastome récurrent. AJNR Am J Neuroradiol 42, 1080-1086, https://doi.org/10.3174/ajnr.A7071 (2021).

Article CAS PubMed PubMed Central Google Scholar

Bakas, S. et al. GLISTRboost : combinaison de la segmentation IRM multimodale, de l'enregistrement et de la modélisation biophysique de la croissance tumorale avec des machines de renforcement de gradient pour la segmentation du gliome. Lésion cérébrale 9556, 144-155, https://doi.org/10.1007/978-3-319-30858-6_1 (2016).

Article PubMed PubMed Central Google Scholar

Zeng, K. et al. Segmentation des gliomes dans les volumes d'imagerie par résonance magnétique multimodale préopératoire et postopératoire basée sur un cadre hybride génératif-discriminant. Lésion cérébrale 10154, 184–194, https://doi.org/10.1007/978-3-319-55524-9_18 (2016).

Article PubMed Google Scholar

Menze, BH et al. La référence de segmentation d'images de tumeurs cérébrales multimodales (BRATS). IEEE Trans Med Imaging 34, 1993–2024, https://doi.org/10.1109/TMI.2014.2377694 (2015).

Article PubMed Google Scholar

Moon, TK L'algorithme de maximisation des attentes. 13 (1996).

Mang, A., Bakas, S., Subramanian, S., Davatzikos, C. & Biros, G. Modélisation biophysique intégrée et analyse d'image : application à la neuro-oncologie. Annu Rev Biomed Eng 22, 309–341, https://doi.org/10.1146/annurev-bioeng-062117-121105 (2020).

Article CAS PubMed PubMed Central Google Scholar

Bauer, S., Fejes, T., Reyes, M. Un filtre anti-crâne pour ITK. Le journal Insight (2012).

Yushkevich, PA et al. Segmentation automatique rapide des sous-champs de l'hippocampe et des sous-régions du lobe temporal médial en IRM pondérée en T2 de 3 Tesle et 7 Tesla. Alzheimer et démence : Le Journal de l'Association Alzheimer 12, P126-P127 (2016).

Article Google Scholar

Joshi, S., Davis, B., Jomier, M. & Gerig, G. Construction d'un atlas difféomorphique impartial pour l'anatomie computationnelle. Neuroimage 23(Suppl 1), S151–60, https://doi.org/10.1016/j.neuroimage.2004.07.068 (2004).

Article PubMed Google Scholar

Yushkevich, PA et al. Segmentation active des contours 3D guidée par l'utilisateur des structures anatomiques : Efficacité et fiabilité considérablement améliorées. NeuroImage 31, 1116–1128 (2006).

Article Google Scholar

Yushkevich, PA et al. Segmentation guidée par l'utilisateur d'ensembles de données d'imagerie médicale multimodalité avec ITK-SNAP. Neuroinformatique 17, 83–102 (2019).

Article Google Scholar

Davatzikos, C. et al. Boîte à outils d'imagerie phénomique du cancer : analyse d'imagerie quantitative pour des diagnostics de précision et une modélisation prédictive des résultats cliniques. J Med Imaging (Bellingham) 5, 011018, https://doi.org/10.1117/1.JMI.5.1.011018 (2018).

Article Google Scholar

Fathi Kazerooni, A. et al. Phénomique d'imagerie du cancer via CaPTk : prédiction multi-institutionnelle de la survie sans progression et du schéma de récidive du glioblastome. JCO Clin Cancer Inform 4, 234–244, https://doi.org/10.1200/CCI.19.00121 (2020).

Article PubMed Google Scholar

Pati, S. et al. La boîte à outils de la phénomique d'imagerie du cancer (CaPTk) : aperçu technique. Lésion cérébrale 11993, 380–394, https://doi.org/10.1007/978-3-030-46643-5_38 (2020).

Article PubMed PubMed Central Google Scholar

Saima Rathore, SB et al. Brain Cancer Imaging Phenomics Toolkit (brain-CaPTk): Une plateforme interactive pour l'analyse quantitative du glioblastome. Dans l'atelier international MICCAI sur les lésions cérébrales (2018).

Thakur, S. et al. Extraction de cerveau sur IRM en présence de gliome diffus : évaluation des performances multi-institutionnelles des méthodes d'apprentissage en profondeur et formation robuste indépendante des modalités. Neuroimage 220, 117081, https://doi.org/10.1016/j.neuroimage.2020.117081 (2020).

Article PubMed Google Scholar

Thakur, SP et al. Skull-Stripping des IRM de glioblastome à l'aide de l'apprentissage en profondeur 3D. Lésion cérébrale 11992, 57–68, https://doi.org/10.1007/978-3-030-46640-4_6 (2019).

Article PubMed Google Scholar

Ronneberger, O., Fischer, P. et Brox, T. U-net : réseaux convolutifs pour la segmentation d'images biomédicales. Dans Conférence internationale sur l'informatique d'imagerie médicale et l'intervention assistée par ordinateur 234–241 (Springer, 2015).

van Griethuysen, JJM et al. Système de radiomique computationnelle pour décoder le phénotype radiographique. Cancer Res 77, e104–e107, https://doi.org/10.1158/0008-5472.CAN-17-0339 (2017).

Article CAS PubMed PubMed Central Google Scholar

Pyradiomie. Caractéristiques radiomiques. https://pyradiomics.readthedocs.io/en/latest/features.html. (2016)

Sheller, MJ et al. Apprentissage fédéré en médecine : faciliter les collaborations multi-institutionnelles sans partager les données des patients. Sci Rep 10, 12598, https://doi.org/10.1038/s41598-020-69250-1 (2020).

Article ADS CAS PubMed PubMed Central Google Scholar

Nolden, M. et al. The Medical Imaging Interaction Toolkit : défis et avancées : 10 ans de développement open-source. Int J Comput Assist Radiol Surg 8, 607–20, https://doi.org/10.1007/s11548-013-0840-8 (2013).

Article PubMed Google Scholar

Madhavan, S. et al. Rembrandt : aider la médecine personnalisée à devenir une réalité grâce à la recherche translationnelle intégrative. Mol Cancer Res 7, 157–67, https://doi.org/10.1158/1541-7786.MCR-08-0435 (2009).

Article CAS PubMed PubMed Central Google Scholar

Télécharger les références

Ce travail a été en partie financé par la subvention de soutien du Lombardi Cancer Center (NCI P30 CA51008), et en partie soutenu par le National Cancer Institute (NCI) et le National Institute of Neurological Disorders and Stroke (NINDS) des National Institutes of Health (NIH) , sous les numéros de récompense NCI : U01CA242871, NCI : U24CA189523 et NINDS : R01NS042645. Le contenu de cette publication relève de la seule responsabilité des auteurs et ne représente pas les opinions officielles du NIH.

Ces auteurs ont contribué à parts égales : Anousheh Sayah, Camelia Bencheqroun.

Hôpital universitaire Medstar Georgetown, Washington, DC, États-Unis

Anousheh Sayah

Centre d'innovation pour l'informatique biomédicale (ICBI), Université de Georgetown, Washington, DC, États-Unis

Camelia Bencheqroun, Krithika Bhuvaneshwar, Anas Belouali, Adil Alaoui, Subha Madhavan & Yuriy Gusev

Center for Biomedical Image Computing and Analytics (CBICA), Université de Pennsylvanie, Philadelphie, PA, États-Unis

Spyridon Bakas, Chiharu Sako et Christos Davatzikos

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

AS : Expertise radiologue certifiée par le Conseil, étiquetage effectué des examens IRM, ensemencement, vérification manuelle de tous les résultats de segmentation. CB : a effectué le nettoyage des données, l'analyse de la segmentation de Bratumia et l'analyse des données d'apprentissage automatique. KB : chef de projet, gestionnaire de données, rédaction et édition. AB : conception de projet, chef d'équipe d'apprentissage automatique, analyse de données d'apprentissage automatique ; SB, CS et CD : initialisation/prétraitement des données, réalisation d'une analyse de segmentation GLISTRboost. AA : administration et finances du projet. SM : propriétaire des données de la puce à ADN et du nombre de copies. YG : expert senior en bioinformatique, conceptualisation et conception de projet, PI, rédaction et édition. Tous les auteurs ont participé à la révision du manuscrit.

Correspondance à Krithika Bhuvaneshwar ou Yuriy Gusev.

Subha Madhavan est actuellement employée et actionnaire mineure d'AstraZeneca, Gaithersburg, MD, États-Unis.

Note de l'éditeur Springer Nature reste neutre en ce qui concerne les revendications juridictionnelles dans les cartes publiées et les affiliations institutionnelles.

Libre accès Cet article est sous licence Creative Commons Attribution 4.0 International, qui permet l'utilisation, le partage, l'adaptation, la distribution et la reproduction sur n'importe quel support ou format, à condition que vous accordiez le crédit approprié à l'auteur ou aux auteurs originaux et à la source, fournissez un lien vers la licence Creative Commons et indiquez si des modifications ont été apportées. Les images ou tout autre matériel tiers dans cet article sont inclus dans la licence Creative Commons de l'article, sauf indication contraire dans une ligne de crédit au matériel. Si le matériel n'est pas inclus dans la licence Creative Commons de l'article et que votre utilisation prévue n'est pas autorisée par la réglementation légale ou dépasse l'utilisation autorisée, vous devrez obtenir l'autorisation directement du détenteur des droits d'auteur. Pour voir une copie de cette licence, visitez http://creativecommons.org/licenses/by/4.0/.

Réimpressions et autorisations

Sayah, A., Bencheqroun, C., Bhuvaneshwar, K. et al. Améliorer la collection d'IRM REMBRANDT avec des étiquettes de segmentation expertes et des caractéristiques radiomiques quantitatives. Sci Data 9, 338 (2022). https://doi.org/10.1038/s41597-022-01415-1

Télécharger la citation

Reçu : 12 octobre 2021

Accepté : 24 mai 2022

Publié: 14 juin 2022

DOI : https://doi.org/10.1038/s41597-022-01415-1

Toute personne avec qui vous partagez le lien suivant pourra lire ce contenu :

Désolé, aucun lien partageable n'est actuellement disponible pour cet article.

Fourni par l'initiative de partage de contenu Springer Nature SharedIt

PARTAGER