Deep learning applications for the diagnosis of retinal inherited diseases using fundus autofluorescence imaging
Classification de maladies héréditaires rétiniennes par apprentissage profond sur des images d'autofluorescence du fond d'oeil
Abstract
Inherited retinal diseases (IRDs) are a group of genetic diseases affecting the retina, with an estimated prevalence of 1 in 3000 people, with a total of more than 2 million people worldwide. As an in vivo metabolic mapping of the retina, fundus autofluorescence imaging (FAF) plays a key role in evaluating patients with IRDs, with several FAF phenotypes described for each IRD.
This work aimed to apply deep learning (DL) to FAF in IRDs.
Firstly, FAF images of patients with retinitis pigmentosa (RP), Best disease (BD), Stargardt disease (STGD1), as well as a healthy comparable group were used to train a multi-layer deep convolutional neural network (CNN) to differentiate on FAF images between each type of IRD and normal FAF. The CNN was trained and validated with 389 FAF images. Established augmentation techniques were used. An Adam optimizer was used for training. For the subsequent testing, the built classifiers were then tested with 94 untrained FAF images. Integrated gradient visualization was used to explain the models output. Our results have demonstrated a global accuracy of 0.95. Precision-recall area under the curve (PRC-AUC) averaged 0.988 for BD, 0.999 for RP, 0.996 for STGD1, and 0.989 for healthy controls. A second approach, using data generation, training on 5 different CNNs, and t-SNE as a visualization method yielded an overall accuracy of 0.982 in distinguishing between STGD1, RP, BD, and healthy FAF images. In conclusion, we have shown this study describes for the first time the use of a DL model to automatically detect and classify IRDs on FAF imaging.
Secondly, we aimed at automatically classifying retinal atrophy, using a DL model, according to its etiology: genetic (late-stages of genetically confirmed cases of STGD1 and Pseudo-Stargardt Pattern Dystrophy (PSPD), associated with PRPH2 mutation) or associated to dry Age-related macular degeneration (AMD). A pre-trained CNN (ResNet101) and transfer learning from the ImageNet database were used on 314 FAF images, of which 110 images were of GA eyes and 204 were eyes with genetically confirmed STGD1 or PSPD. The best performance of the model was obtained using 10 epochs, with an accuracy of 0.92 and an area under the curve for Receiver Operating Characteristic (AUC-ROC) of 0.981. It is important to distinguish between atrophy secondary to IRDs or to dry AMD, as it may impact the prognosis of the disease, the need for genetic counseling, and the rate of disease progression.
Thirdly, we aimed at differentiating, using a DL model, between STGD1 and PSPD, using a dataset of FAF images of patients with molecular diagnosis (ABCA4 mutation for STGD1 and PRPH2 mutation for PSPD). For this, we pretrained the CNN with various FAF images. The model achieved an overall accuracy of 0.88 and an AUC-ROC of 0.89 on the test set, consisting of 111 images. We compared this accuracy with that of retinal experts specialized in IRDs, whose accuracy was 0.816, and with retina fellows accuracy in distinguishing the two, averaging 0.724. Therefore, the DL model was not only non-inferior to human graders, but its accuracy was superior.
Hereby, the created DL classifiers showed excellent results. With further developments, these models may be reliable diagnostic tools and give relevant information for future therapeutic approaches in IRDs.
Les maladies rétiniennes héréditaires (IRD) sont un groupe de maladies génétiques affectant la rétine, avec une prévalence estimée à 1 personne sur 3000, avec un total de plus de 2 millions de personnes dans le monde. En tant que cartographie métabolique in vivo de la rétine, l'imagerie par autofluorescence du fond d'œil (FAF) joue un rôle clé dans l'évaluation des patients atteints d'IRD, avec plusieurs phénotypes FAF décrits pour chaque IRD.
Ce travail a comme objectif d’appliquer l'apprentissage profond (DL) au FAF dans les IRD.
Premièrement, des images FAF de patients atteints de rétinite pigmentaire (RP), de la maladie de Best (BD), de la maladie de Stargardt (STGD1), ainsi que d'un groupe comparable des yeux normaux ont été utilisées pour entraîner un réseau neuronal convolutionel multicouche (CNN), afin de différencier sur les images FAF entre chaque type d'IRD et une FAF normale. Le CNN a été entraîné et validé avec 389 images FAF. Des techniques d'augmentation établies ont été utilisées. Un optimiseur Adam a été utilisé. Ensuite, le classificateur construit a ensuite été testé avec 94 images FAF n’ayant pas été utilisées pour l’entraînement. La visualisation de gradient intégrée a été utilisée pour expliquer la sortie du modèle. Nos résultats ont démontré une précision globale de 0,95. L'aire sous la courbe rappel précision (Precision Recall Curve, PRC-AUC) était en moyenne de 0,988 pour BD, 0,999 pour RP, 0,996 pour STGD1 et 0,989 pour les témoins sains. Une deuxième approche, utilisant la génération de données, 5 CNN différents et le t-SNE comme méthode de visualisation, a donné une précision globale de 0,982 pour distinguer les images STGD1, RP, BD et FAF saines. En conclusion, cette étude décrit pour la première fois l'utilisation d'un modèle DL pour détecter et classer automatiquement les IRD sur l'imagerie FAF.
Deuxièmement, nous avons cherché à classer automatiquement l'atrophie rétinienne, à l'aide d'un modèle DL, selon son étiologie: génétique (stades tardifs des cas génétiquement confirmés de STGD1 et Pseduo-Stargardt Pattern Dystrophy (PSPD), associée à la mutation PRPH2) ou associée à la dégénérescence maculaire liée à l'âge (DMLA) atrophique. Un CNN pré-entraîné (ResNet101) et l'apprentissage par transfert de la base de données ImageNet ont été utilisés sur 314 images FAF, dont 110 images étaient des yeux GA et 204 étaient des cas avec STGD1 ou PSPD génétiquement confirmés. Les meilleures performances du modèle ont été obtenues en utilisant 10 époques, avec une précision de 0,92 et une aire sous la courbe pour la courbe Receiver Operating Characteristics (AUC-ROC) de 0,981. Il est important de faire la distinction entre l'atrophie secondaire aux IRD ou à la DMLA sèche, cela pouvant avoir un impact sur le pronostic de la maladie, la nécessité d'un conseil génétique et le taux de progression de la maladie.
Troisièmement, nous avons cherché à différencier, à l'aide d'un modèle DL, entre STGD1 et PSPD, en utilisant un ensemble d'images FAF de patients avec diagnostic génétique (mutation ABCA4 pour STGD1 et mutation PRPH2 pour PSPD). Pour cela, nous avons pré-entraîné le CNN avec diverses images FAF. Le modèle a atteint une précision globale de 0,88 et une AUC-ROC de 0,89 sur l'ensemble de test, composé de 111 images. Nous avons comparé cette précision avec celle des experts rétiniens spécialisés dans les IRD, dont la précision était de 0,816, et avec la précision des chefs de clinique en rétine médicale pour distinguer les deux, avec une moyenne de 0,724. Par conséquent, le modèle DL n'était pas seulement non inférieur aux lecteurs humains, mais sa précision était supérieure.
Ainsi, les classificateurs DL créés ont montré d'excellents résultats. Avec de nouveaux développements, ces modèles peuvent être des outils de diagnostic fiables et fournir des informations pertinentes pour les futures approches thérapeutiques dans les IRD.