Multimodal analysis of radiological, pathological, and transcriptomic data for the prediction of immunotherapy outcome in Non-Small Cell Lung Cancer patients
Co-analyse de données radiomiques, pathologiques, et transcriptomiques pour la compréhension et la prédiction de la réponse à l’immunothérapie chez des patients atteints de cancer du poumon non à petites cellules
Résumé
Overall survival of patients with metastatic non-small cell lung cancer (NSCLC) has been increasing with the use of anti-PD-1 immune checkpoint inhibitors. However, the duration of response remains highly variable between patients, and only 20-30% of patients are alive at 2 years. Thus, new biomarkers for predicting response to treatment and patient outcomes are still needed to guide therapeutic decision. In my PhD, we investigated machine learning approaches to leverage radiological, transcriptomic, and pathological data, integrating them into powerful multimodal models that might improve the limited predictive power of routine clinical data.My doctoral research stood at the heart of a multidisciplinary project funded by Fondation ARC call «SIGN’IT 2020—Signatures in Immunotherapy». It brought together several research teams of Institut Curie alongside a team from Institut du thorax, led by Professor Nicolas Girard, in charge of patient management and data collection. We built a new multimodal cohort of 317 metastatic NSCLC patients treated with first-line immunotherapy alone or combined with chemotherapy. At baseline, we collected clinical information from routine care, 18F-FDG PET/CT scans, digitized pathological slides from the initial diagnosis, and bulk RNA-seq profiles from solid biopsies. Immunotherapy outcome was monitored with Overall Survival (OS) and Progression-Free Survival (PFS).Together with Irène Buvat and Emmanuel Barillot, whose teams hold significant expertise in the analysis of medical images and RNAseq tumor profiles, respectively, we initially focused on designing computational tools to extract relevant and interpretable information from these two data modalities. We notably developed a Python tool to apply Independent Component Analysis (ICA) on omics data and stabilize the results through multiple runs. We then explored the potential of stabilized ICA to extract powerful and biologically relevant transcriptomic features for the prediction of patient outcome. For medical images, and in particular 18F-FDG PET scans, we investigated the potential of radiomic approaches to characterize the metastatic disease at the whole-body level and design novel predictive features. We designed a Python explanation tool, based on Shapley values, to highlight the contribution of each individual metastasis to the prediction of radiomic models that use as input such whole-body features. A substantial portion of my PhD was devoted to the integration of clinical, radiomic, and transcriptomic features, as well as pathomic features extracted from digitized pathological slides (with the assistance of Thomas Walter’s team). We conducted a thorough comparison of the predictive capabilities of the different multimodal combinations using various state-of-the-art learning algorithms and integration methods. We devised strategies to overcome the many challenges associated to multimodal integration within our dataset, including handling missing modalities for numerous patients, dealing with a modest cohort size in comparison to the high dimensionality of the data, or ensuring a fair comparison of all the possible multimodal combinations. We especially focused on highlighting the potential of multimodal approaches to enhance patient risk stratification with respect to models using only clinical information collected during routine care.
La survie globale des patients atteints de cancer du poumon non à petites cellules (CPNPC) métastatique a augmenté grâce à l’utilisation d’immunothérapies anti-PD1/PD-L1. Cependant, la durée de la réponse reste très variable d'un patient à l'autre, et seuls 20 à 30 % des patients sont encore en vie après deux ans. Par conséquent, de nouveaux biomarqueurs permettant de prédire la réponse au traitement et le pronostic des patients sont nécessaires pour guider la décision thérapeutique. Dans le cadre de mon doctorat, nous avons étudié des approches d'apprentissage automatique pour exploiter les données radiologiques, transcriptomiques et pathologiques, en les intégrant dans des modèles multimodaux susceptibles d'améliorer le pouvoir prédictif limité des données de routine clinique.Mon doctorat était au cœur d'un projet multidisciplinaire financé par la Fondation ARC, intitulé "SIGN'IT 2020-Signatures en Immunothérapie". Il réunissait plusieurs équipes de recherche de l'Institut Curie aux côtés d'une équipe de l'Institut du thorax, dirigée par le Professeur Nicolas Girard, en charge de la prise en charge des patients et de la collecte des données. Nous avons constitué une nouvelle cohorte multimodale de 317 patients atteints de CPNPC métastatique traités, en première ligne, par immunothérapie, seule ou associée à une chimiothérapie. Avant le début du traitement, nous avons recueilli des informations cliniques provenant des soins de routine, des examens TEP/TDM au 18F-FDG, des lames pathologiques numérisées provenant du diagnostic initial et des profils RNA-seq provenant de biopsies solides. Les résultats de l'immunothérapie ont été évalués en fonction de la survie globale (OS) et de la survie sans progression (PFS) de chaque patient.En collaboration avec Irène Buvat et Emmanuel Barillot, dont les équipes sont respectivement spécialisées dans l'analyse d'images médicales et de profils tumoraux RNA-seq, nous nous sommes d'abord concentrés sur la conception d'outils informatiques permettant d'extraire des informations pertinentes et interprétables à partir de ces deux modalités de données. Nous avons notamment développé un outil Python pour appliquer l'Analyse en Composantes Indépendantes (ICA) sur les données omiques et stabiliser les résultats à travers de multiples exécutions. Nous avons ensuite exploré le potentiel de l'ICA stabilisée pour extraire des caractéristiques transcriptomiques puissantes et biologiquement pertinentes pour la prédiction des résultats des patients. Pour les images médicales, et en particulier les examens TEP au 18F-FDG, nous avons étudié le potentiel des approches radiomiques pour caractériser la maladie métastatique au niveau du corps entier et concevoir de nouvelles caractéristiques prédictives. Nous avons conçu un outil d'explication Python, basé sur les valeurs de Shapley, pour mettre en évidence la contribution de chaque métastase individuelle à la prédiction des modèles radiomiques.Une part importante de mon doctorat a été consacrée à l'intégration des caractéristiques cliniques, radiomiques et transcriptomiques, ainsi que des caractéristiques pathomiques (avec l'aide de l'équipe de Thomas Walter). Nous avons procédé à une comparaison approfondie des capacités prédictives des différentes combinaisons multimodales en utilisant divers algorithmes d'apprentissage et méthodes d'intégration. Nous avons conçu des stratégies pour surmonter les nombreux défis associés à l'intégration multimodale, y compris la gestion des modalités manquantes pour de nombreux patients, la gestion d'une taille de cohorte modeste par rapport à la haute dimensionnalité des données, ou la garantie d'une comparaison équitable de toutes les combinaisons multimodales possibles. Nous nous sommes particulièrement attachés à mettre en évidence le potentiel des approches multimodales pour améliorer la stratification des risques des patients par rapport aux modèles utilisant uniquement des informations de routine clinique.
Origine | Version validée par le jury (STAR) |
---|