Bibliographic and Educational Resources in Cytogenomics

This platform is designed to serve as a comprehensive educational and bibliographic resource for healthcare professionals involved in cytogenomics. Covering a wide range of up-to-date topics within the field, it offers structured access to recent scientific literature and a variety of pedagogical tools tailored to clinicians, educators, and trainees.

Each topic is grounded in a curated selection of recent publications, accompanied by in-depth summaries that go far beyond traditional abstracts—offering clear, clinically relevant insights without the time burden of reading full articles. These summaries act as gateways to the original literature, helping users identify which articles warrant deeper exploration.

In addition to these detailed reviews, users will find a rich library of supplementary materials: topic overviews, FAQs, glossaries, synthesis sheets, thematic podcasts, fully structured course outlines adaptable for teaching, and ready-to-use PowerPoint slide decks. All resources are open access and formatted for easy integration into academic or clinical training programs.

By providing practical, well-structured content, the platform enables members of the cytogenomics community to efficiently update their knowledge on selected topics. It also offers educational materials that are easily adaptable for instructional use.

nouvelles perspectives diagnostiques pour les maladies génétiques rares

PRÉSENTATION

Les maladies rares, qui touchent environ 30 millions de personnes aux États-Unis et plus de 300 à 400 millions dans le monde, sont souvent la cause de maladies chroniques, de handicaps et de décès prématurés. Environ 80 % de ces maladies ont une origine génétique. Malgré leur prévalence individuelle apparemment faible, leur impact collectif est comparable à celui de maladies courantes comme le diabète de type 2. Historiquement, le diagnostic des maladies rares reposait sur des approches heuristiques, combinant l’expérience clinique avec la littérature médicale. Cependant, de nombreux patients restent non diagnostiqués pendant des années, voire des décennies, et certains décèdent sans diagnostic précis. Le délai moyen pour un diagnostic précis est d’environ 4 à 5 ans, mais peut dépasser une décennie dans certains cas, entraînant une «odyssée diagnostique» coûteuse et émotionnellement éprouvante.

Un diagnostic précis offre des avantages considérables, notamment une meilleure gestion de la maladie, l’identification de traitements potentiels, l’évitement de thérapies inutiles et leurs effets secondaires, et des informations cruciales pour la planification familiale en cas de maladies héréditaires. Pourtant, moins de 50 % des patients atteints d’une maladie rare obtiennent un diagnostic avec les méthodes actuelles.

Évolution des Technologies de Diagnostic Génétique

Le domaine du diagnostic génétique a considérablement évolué. Alors qu’il y a une dizaine d’années, les tests génétiques étaient coûteux et limités à quelques gènes, l’avènement des technologies de séquençage de nouvelle génération (NGS) a révolutionné la précision, l’utilité et le coût des tests génétiques.

Les approches NGS, telles que les panels de gènes, le séquençage d’exome (ES) et le séquençage de génome (GS), sont devenues courantes dans les laboratoires de diagnostic et de recherche. En 2021, le marché mondial du séquençage d’ADN s’élevait à 15,7 milliards de dollars, les NGS représentant plus de 80 % du marché.

  • Séquençage d’Exome (ES):
    • L’ES se concentre sur les régions codantes des protéines, qui représentent moins de 2 % du génome.
    • Il a permis de diagnostiquer 25 à 35 % des patients non diagnostiqués, souvent avec des résultats exploitables.
    • Le séquençage des trios (patient-parents) réduit considérablement le nombre de variants candidats, doublant les chances de diagnostic par rapport au séquençage de singletons.
    • Des programmes comme Care for Rare et le Undiagnosed Diseases Network ont démontré son efficacité pour mettre fin à l’odyssée diagnostique.
  • Séquençage de Génome (GS):
    • Le GS est capable d’identifier les variants canoniques et complexes, les répétitions en tandem, les variants introniques et les variants codants qui sont souvent manqués par l’ES.
    • Il offre une couverture plus uniforme sur toutes les régions uniques du génome et une meilleure détection des variants de nombre de copies (CNV) et des variants structurels (SV) que l’ES.
    • Bien que le GS soit plus coûteux que l’ES, son prix diminue, et il est envisagé comme un futur test de première ligne en raison de sa capacité à interroger tous les types de variants à l’échelle du génome.
    • Le GS a permis de nouvelles diagnoses, notamment l’identification d’expansions de répétitions, d’insertions d’éléments mobiles et de variants introniques profonds.
  • Limites des approches NGS actuelles:
    • Couverture Incomplète: L’ES et le GS peuvent avoir une couverture non uniforme, en particulier dans les régions riches en GC, de faible complexité ou homologues, rendant difficile la capture, le séquençage ou l’alignement des régions.
    • Détection des Variants Structurels (SV) et Répétitions en Tandem (STR): L’ES a un succès modeste dans la détection des SV et des STR. Le GS peut les détecter, mais avec des limitations de taille (généralement >10 kb pour les SV), et l’interprétation des variants non codants reste difficile.
    • Variants Somatiques/Mosaïques et ADNmt: Les méthodes NGS sont généralement axées sur les variants germinaux, mais peuvent détecter des variants somatiques (mosaïques) ou des mutations de l’ADN mitochondrial (ADNmt) si une profondeur de lecture plus élevée est utilisée (~500-1000x pour les mosaïques contre ~100x pour l’exome et ~30x pour le génome).
    • Interprétation des Variants de Signification Inconnue (VUS): Les ES et GS génèrent un grand nombre de VUS, dont beaucoup ne peuvent pas être classés en raison d’un manque d’informations.
    • Régions Non Codantes: L’annotation des SNV introniques profonds et intergéniques est très limitée, rendant leur évaluation quasi impossible. Le plein potentiel du GS dépendra des avancées dans la compréhension de ces régions réglementaires.
    • Biais Ancestral: Les bases de données génomiques sont souvent biaisées vers les populations d’ascendance européenne, ce qui rend l’interprétation des données des patients non-européens plus difficile et coûteuse.
Contenu de va-et-vient

Pour surmonter les limites du séquençage à lecture courte, de nouvelles technologies émergent:

  • Séquençage à Lecture Longue (LRS):
    • Le LRS produit des lectures allant de 10 à 60 kb, voire jusqu’à 2 Mb, ce qui améliore l’alignement au génome de référence et la détection des SV, en particulier dans les régions répétitives ou riches en GC.
    • Avantages: Détection de variants de nucléotide unique (SNV), insertions/délétions (INDEL), SV complexes, répétitions en tandem (STR) et modifications de méthylation, ainsi que l’haplotypage (assignation des variants aux chromosomes parentaux). Il peut identifier des expansions de répétitions connues et nouvelles qui étaient manquées par le séquençage à lecture courte.
    • Plateformes: Pacific Biosciences (SMRT) et Oxford Nanopore Technologies (ONT) sont les principales plateformes LRS.
    • Détection Directe de la Méthylation: Le LRS peut détecter directement les nucléotides méthylés (5mC, 4mC, 6mA) à partir de l’ADN natif, évitant ainsi les biais associés aux méthodes de bisulfite.
    • Défis: Le coût, en particulier pour Pacific Biosciences, reste un défi, bien que les coûts d’ONT soient comparables au séquençage à lecture courte. La précision de l’identification des modifications de base est encore en développement. Une approche hybride combinant les avantages du LRS à faible couverture et du séquençage à lecture courte à couverture plus élevée est une solution attractive en attendant.
  • Références Pan-Génomiques:
    • Le génome de référence humain actuel est une séquence linéaire haploïde qui manque de la diversité génétique des populations. Cela entraîne un «biais de référence», où les allèles non référencés sont difficiles à aligner.
    • Les pan-génomes représentent une collection de toutes les séquences génomiques d’une population, ce qui réduit le biais de référence et améliore la précision de l’alignement et de l’appel des variants.
    • Des outils comme Giraffe ont démontré l’amélioration de la détection des SNV, INDEL et SV. Le modèle pan-génomique peut aider à détecter des variants plus précis pour les patients de populations sous-représentées et permettre la construction de génomes de référence personnalisés.
    • Bien que le pan-génome n’ait pas encore directement conduit à des diagnostics, des efforts sont en cours, et on s’attend à ce que son utilisation améliore les diagnostics, en particulier pour les variants structurels.
  • Cartographie Optique du Génome (OGM):
    • L’OGM est une technique non séquentielle qui détecte les SV (de 500 bp aux chromosomes entiers), y compris les délétions, insertions, expansions de répétitions, duplications en tandem, translocations et aneuploïdies.
    • Elle offre une résolution plus élevée que les microréseaux et le caryotypage et peut détecter le mosaïcisme de bas niveau.
    • L’OGM nécessite une méthode d’extraction d’ADN spécifique pour préserver les très longs fragments.
    • Elle a déjà permis des diagnostics réussis de SV complexes et de maladies comme la dystrophie musculaire facioscapulohumérale.

Pour interpréter la richesse des informations génomiques, plusieurs technologies “omiques” émergent, offrant des lectures fonctionnelles directes des effets des variants.

  • Transcriptomique (Séquençage d’ARN):
    • Le séquençage d’ARN (RNA-seq) est un outil puissant pour identifier les variants qui affectent l’expression génique ou l’épissage de l’ARNm. On estime qu’environ 15 % des variants causant des maladies rares altèrent l’épissage de l’ARNm.
    • Le RNA-seq peut détecter les valeurs aberrantes d’expression, l’épissage aberrant, l’expression allélique spécifique (ASE) et les variants structurels transcriptomiques (TSV).
    • Le choix du tissu est crucial, car l’expression génique et les isoformes de l’ARNm varient considérablement d’un tissu à l’autre. Bien que le tissu affecté soit idéal, des alternatives comme le sang, les fibroblastes et les cellules souches pluripotentes induites (iPSC) sont prometteuses.
    • Le séquençage d’ARN à lecture longue peut déterminer la séquence complète des transcrits, améliorant l’analyse de l’épissage alternatif, la découverte de nouvelles isoformes et de fusions géniques, ainsi que l’identification de l’expression allélique spécifique.
    • Le séquençage d’ARN unicellulaire (scRNA-seq) permet d’étudier l’hétérogénéité des échantillons et les variations de cellule à cellule, ce qui peut révéler de nouveaux types de cellules rares et améliorer la compréhension des mécanismes de la maladie.
    • Malgré son potentiel, le RNA-seq est confronté à des défis tels que le coût élevé de la lecture longue à forte profondeur pour le diagnostic clinique, la variabilité des profils d’expression et le manque de cohortes de contrôle appropriées.
  • Profilage de Méthylation (Épigénomique):
    • Les modifications épigénétiques, comme la méthylation de l’ADN, ont des implications importantes dans les maladies rares.
    • La méthylation de l’ADN peut être divisée en “épi-variants” (changement localisé) et “épi-signatures” (combinaisons uniques de changements de méthylation à travers le génome, spécifiques à certains syndromes génétiques).
    • Des technologies comme le RRBS, le WGBS et le LRS peuvent évaluer la méthylation de l’ADN à l’échelle du génome. Des modèles d’apprentissage automatique utilisant des données de méthylation de l’ADN à l’échelle du génome ont été développés pour prédire des syndromes mendéliens associés à des épi-signatures, comme EpiSign.
    • Exemple des syndromes de CHARGE et de Kabuki:
      • Ces deux syndromes, bien que cliniquement distincts, présentent un chevauchement phénotypique significatif. Ils résultent de mutations avec perte de fonction (LOF) dans les gènes CHD7 et KMT2D, respectivement.
      • Des études ont identifié des signatures de méthylation de l’ADN (ADNmé) uniques et hautement spécifiques pour les mutations LOF de CHD7 (CHD7LOF) et de KMT2D (KMT2DLOF). Ces signatures ont une sensibilité et une spécificité de 100 % pour différencier les mutations pathogènes des variants bénins et pour distinguer les deux syndromes l’un de l’autre.
      • L’analyse des cibles des signatures d’ADNmé a révélé des gènes cibles communs, notamment HOXA5 et SLITRK5, ce qui pourrait expliquer une partie du chevauchement clinique entre les syndromes de CHARGE et de Kabuki. Par exemple, une gain d’ADNmé a été observée au niveau du promoteur de HOXA5 dans les deux signatures. Les études fonctionnelles sur la souris suggèrent que la réduction de l’expression de HOXA5 pourrait être liée à des caractéristiques cliniques partagées telles que la déficience de croissance, les anomalies squelettiques et rénales, et les problèmes de développement neural.
      • Des cibles distinctes ont également été identifiées, comme FOXP2 pour CHARGE syndrome et MYO1F pour Kabuki syndrome, qui contribuent aux caractéristiques cliniques propres à chaque syndrome.
      • Ces signatures d’ADNmé peuvent servir d’outils de test moléculaire fonctionnel pour aider à interpréter la pathogenicité des variants de signification inconnue (VUS) dans CHD7 et KMT2D, facilitant ainsi le diagnostic.
      • La recherche suggère une connexion fonctionnelle entre CHD7 et KMT2D, car les deux interagissent avec les membres du complexe WAR, impliquant une régulation des mêmes gènes.
      • Il existe un potentiel pour des interventions thérapeutiques basées sur ces cibles épigénétiques. Par exemple, des inhibiteurs d’histone désacétylase (HDAC) ont montré des effets prometteurs dans des modèles murins de syndrome de Kabuki en inversant les déficits de mémoire.
  • Métabolomique et Lipidomique:
    • Ces dosages fournissent des lectures fonctionnelles qui peuvent confirmer un diagnostic et/ou guider les tests ADN, notamment pour les erreurs innées du métabolisme.
    • Le métabolome est très fluide, influencé par des facteurs génétiques, l’état de la maladie, le mode de vie, l’alimentation et les médicaments.
    • La métabolomique ciblée est utilisée en clinique pour le dépistage néonatal et le diagnostic des troubles métaboliques, tandis que l’analyse non ciblée est prometteuse pour les maladies rares non diagnostiquées.
    • Des études ont montré que la combinaison du séquençage d’exome avec la métabolomique a clarifié des diagnostics et augmenté le rendement diagnostique.
    • La lipidomique, axée sur les lipides, est également utilisée pour confirmer des diagnostics et surveiller la progression de maladies rares liées au métabolisme des lipides.
  • Protéomique:
    • La protéomique, l’étude des protéines à grande échelle, peut révéler des altérations dans la synthèse, la stabilité, la dégradation et la signalisation des protéines, qui peuvent entraîner un état pathologique.
    • Bien que moins répandue que d’autres approches “omiques”, elle a aidé à identifier des mutations causales manquées par l’ES en fournissant des indices sur les protéines dérégulées.
  • Tests Multiplexes d’Effet de Variant (MAVE):
    • Les MAVE combinent la mutagenèse par saturation avec des dosages hautement multiplexes pour étudier les effets des variants, visant à résoudre le défi des VUS.
    • Ils construisent une carte d’effet des variants, établissant l’effet fonctionnel de la mutation de toutes les bases d’ADN ou acides aminés dans un gène donné.

Pour étayer la causalité des variants et comprendre les mécanismes moléculaires, les études fonctionnelles sont essentielles.

  • Des modèles in vivo (mouches, vers, poissons-zèbres, souris) sont utilisés pour valider de nouvelles associations gène-maladie, fournir des données fonctionnelles et identifier des cibles thérapeutiques.
  • Les cellules de patients, cultivées en fibroblastes ou iPSC, peuvent récapituler la pathologie de la maladie, en particulier pour les tissus inaccessibles (neurones, cardiomyocytes).
  • Les criblages CRISPR/Cas9 sont des plateformes puissantes pour évaluer l’impact des variants à haut débit, permettant de lier de nouveaux gènes aux maladies rares ou de comprendre comment différents variants contribuent à une maladie.
  • Appariement de Cas (Case Matching): Le manque de patients phénotypiquement similaires est un défi majeur. Des plateformes comme Matchmaker Exchange (MME) connectent des cas non apparentés avec des variants potentiellement pathogènes dans le même gène candidat et des phénotypes similaires.
  • Ré-analyse Automatisée: La ré-analyse périodique des données de séquençage avec les pipelines analytiques les plus récents et les bases de données de fréquences de variants, ainsi que les mises à jour du phénotype du patient, peut augmenter le rendement diagnostique de 5 à 26 % pour l’ES et de 4 à 11 % pour le GS. Des outils comme Exomiser et l’utilisation du HPO (Human Phenotype Ontology) sont cruciaux. Les avancées dans l’informatique en nuage et le matériel (DRAGEN) accélèrent considérablement l’analyse génomique.
  • Partage de Données: Le partage de données est essentiel pour faire progresser la connaissance des maladies rares, étant donné le nombre limité de patients pour la plupart des maladies. Des initiatives internationales (ClinVar, DECIPHER, Franklin) et nationales (Canadian Open Genetics Repository, Shariant) facilitent ce partage.

L’adoption clinique généralisée des technologies “omiques” est confrontée à plusieurs défis:

  • Cohortes de Contrôle: Le manque de cohortes de contrôle appropriées, notamment ajustées en fonction de l’âge et du sexe, limite l’établissement de l’utilité clinique des technologies émergentes.
  • Connaissances et Validation Spécifiques: La complexité croissante des techniques exige une expertise multidisciplinaire difficile à acquérir pour les petits laboratoires. Le manque de “jeux de vérité” standardisés pour le benchmarking et l’absence de meilleures pratiques pour chaque type d’analyse sont également des obstacles.
  • Données Économiques et de Services de Santé: Les études de rentabilité sont nécessaires pour justifier le remboursement par les systèmes de santé, mais sont difficiles à générer et souvent spécifiques à chaque juridiction.

L’avenir du diagnostic des maladies rares réside dans l’intégration coordonnée et véritablement multi-omique des données génomiques, transcriptomiques, épigénomiques, protéomiques et métabolomiques, potentiellement avec l’aide de l’intelligence artificielle. Bien que ces technologies puissent d’abord servir de tests de deuxième ligne pour les patients dont le diagnostic génomique initial est infructueux, l’objectif est d’atteindre un point où plusieurs évaluations “omiques” pourraient être effectuées dès le début du parcours diagnostique en tant que tests de première ligne.

L’amélioration continue de la précision et de l’abordabilité des technologies à haut débit est essentielle pour combler le fossé diagnostique. Le développement d’algorithmes optimaux et l’accès équitable à ces technologies dans le monde entier sont cruciaux pour réaliser la médecine de précision pour cette population de patients.

FAQ

Le séquençage d’exome (ES) a permis de diagnostiquer une proportion significative (25 à 35 %) des patients non diagnostiqués. Cependant, l’ES ne couvre que les régions codantes des protéines, qui représentent moins de 2 % du génome. Ses limitations incluent une couverture non uniforme (particulièrement dans les premiers exons, les régions riches en GC/AT et les régions de faible complexité) et une capacité limitée à détecter les variants structurels (SV), les répétitions en tandem et les variants pathogènes dans les régions introniques profondes.

Le séquençage du génome entier (GS) peut surmonter de nombreux défis de l’ES en identifiant les variants structurels canoniques et complexes, les répétitions en tandem, les variants introniques et les variants codants qui ne sont pas précisément capturés par l’ES. Il offre une couverture plus uniforme de toutes les régions uniques du génome et une meilleure détection des variants de nombre de copies (CNVs). Bien que son rendement diagnostique global par rapport à l’ES soit encore en cours d’évaluation, le GS est amené à supplanter l’ES à l’avenir grâce à son potentiel pour l’analyse des régions non codantes.

Le séquençage à lecture longue (LRS) génère des lectures de 10 à 60 kb, voire jusqu’à 2 Mb, ce qui améliore l’alignement au génome de référence et la détection des variants structurels, en particulier dans les éléments répétitifs, les duplications segmentaires ou les régions à forte teneur en GC, qui sont difficiles d’accès avec les lectures courtes. Le LRS permet également le phasage des haplotypes (assignation de variants aux chromosomes parentaux), ce qui aide à identifier les mutations hétérozygotes composées et les mutations de novo. Il peut détecter directement les nucléotides méthylés. Le LRS a été utilisé avec succès pour le diagnostic de maladies rares, notamment pour l’identification de répétitions en tandem.

La référence pan-génomique représente une collection de toutes les séquences génomiques d’une population, contrairement au génome de référence humain actuel qui est une séquence haploïde linéaire dérivée d’un très petit nombre d’individus, ce qui lui fait manquer la diversité génétique des populations. En s’alignant sur une référence pan-génomique qui considère de nombreux haplotypes alternatifs, on réduit le « biais de référence », améliorant ainsi la précision de l’alignement et de l’appel des variants, en particulier pour les populations sous-représentées.

La transcriptomique, par le séquençage de l’ARN (RNA-seq), complète le séquençage de l’ADN en aidant à prioriser les variants potentiellement pathogènes. Elle peut classer les variants de signification inconnue (VUS) et fournir des informations sur le mécanisme de la maladie ou identifier un variant dans le second allèle dans une maladie récessive où le séquençage génomique n’a révélé qu’un seul variant pathogène. Les échantillons de tissus affectés sont recommandés, mais le sang, les fibroblastes et les cellules souches pluripotentes induites (iPSC) sont des alternatives prometteuses.

L’analyse des « outliers » d’expression vise à identifier les gènes dont l’expression est extrêmement élevée ou faible chez un patient par rapport à une cohorte de contrôle, suggérant des variants régulateurs. Le splicing aberrant (épissage aberrant) identifie les erreurs dans le processus de coupure-collage des ARN messagers (ARNm), qui peuvent inclure le saut d’exon, l’inclusion de pseudoexons introniques, ou la rétention d’introns. Ces analyses peuvent aider à reprioriser des variants synonymes ou introniques profonds qui seraient normalement filtrés.

L’expression allèle-spécifique (ASE) est un phénomène où un allèle est exprimé de manière significativement plus élevée que l’autre. Cette approche peut fournir des pistes diagnostiques pour les troubles monogéniques neuromusculaires ou aider à établir le diagnostic génétique lorsque le séquençage génomique n’identifie qu’un seul variant hétérozygote pour un trouble récessif. Les variants structurels transcriptomiques (TSVs), tels que les gènes de fusion, sont des modifications de l’ARNm causées par des SV génomiques qui entraînent une fonction génique altérée. L’analyse des TSVs par RNA-seq peut aider à détecter des réarrangements chromosomiques ou des inversions.

Ces technologies dites « omiques » fournissent des informations fonctionnelles au-delà de la séquence d’ADN :

    • Méthylation de l’ADN (Épigénomique) : L’analyse des modifications épigénétiques, comme la méthylation de l’ADN, peut avoir des implications importantes dans les maladies rares. Les « épi-signatures » (combinaisons uniques de changements de méthylation de l’ADN à travers le génome) peuvent aider à prédire des syndromes mendéliens ou à classer des VUS.
    • Métabolomique et Lipidomique : Ces approches fournissent des lectures fonctionnelles du métabolisme et des lipides. Elles peuvent confirmer un diagnostic de maladie rare ou guider les tests ADN, notamment pour les erreurs innées du métabolisme. La métabolomique peut reclasser les variants et augmenter le rendement diagnostique lorsqu’elle est combinée à l’ES.
    • Protéomique : L’étude des protéines révèle des altérations dans la synthèse, la stabilité, la dégradation ou la signalisation des protéines. Elle peut guider les diagnostics génétiques ciblés et révéler des mutations initialement manquées par l’ES.

Oui, les études fonctionnelles sont essentielles pour valider les variants candidats, élucider les mécanismes moléculaires des maladies rares et identifier des cibles thérapeutiques potentielles. Elles utilisent des systèmes modèles in vivo (mouches, vers, poissons-zèbres, souris) ou in vitro (lignées cellulaires, cellules primaires, iPSCs). Les iPSCs sont particulièrement précieuses pour les troubles qui affectent des tissus inaccessibles (comme les neurones ou les cardiomyocytes) et peuvent être utilisées pour modéliser la maladie du patient. Les criblages CRISPR/Cas9 permettent d’évaluer l’impact des variants à haut débit et de lier de nouveaux gènes à des maladies rares.

Le Matchmaker Exchange (MME) est une plateforme mondiale qui permet d’identifier des cas non apparentés présentant des phénotypes similaires ou des mutations génétiques similaires dans le même gène candidat. Il a facilité la découverte de plus de 600 nouvelles associations gène-maladie. La ré-analyse automatisée implique la réévaluation périodique des données de séquençage avec les pipelines analytiques, les bases de données de fréquences de variants, la littérature la plus récente et les mises à jour du phénotype du patient. Cette approche a démontré une augmentation du rendement diagnostique de 5 à 26 % pour l’ES et de 4 à 11 % pour le GS.

L’adoption clinique de ces technologies est confrontée à plusieurs défis :

    • Techniques : Interprétation des variants non codants et des VUS, nécessité de méthodes spécialisées pour analyser et intégrer les données multi-omiques.
    • Financiers : La plupart des tests mentionnés ne sont pas cliniquement disponibles ou ne sont pas couverts par l’assurance maladie, bien que des études de coût-efficacité montrent des réductions de coûts hospitaliers à long terme.
    • Biais d’ascendance : Les bases de données génomiques sont souvent biaisées vers les populations d’ascendance européenne, rendant l’interprétation des données des individus d’autres ethnies plus difficile et coûteuse.
    • Cohortes de contrôle : Manque de cohortes de contrôle appropriées, en particulier pour les données multi-omiques, compliquant l’établissement de l’utilité clinique.
    • Expertise et validation : Nécessité d’une expertise spécifique et de normes de validation pour chaque nouvelle technologie.

Oui, les signatures de méthylation de l’ADN sont capables de diagnostiquer et de différencier des syndromes cliniquement similaires. Des études ont identifié des signatures de méthylation de l’ADN uniques pour les syndromes de CHARGE (causé par des mutations CHD7) et de Kabuki (causé par des mutations KMT2D). Ces signatures, dérivées du sang, ont une sensibilité et une spécificité de 100 %, permettant de distinguer les mutations pathogènes des variants bénins, ainsi que de différencier les deux syndromes entre eux. Elles peuvent même aider à classer les variants de signification inconnue (VUS).

L’approfondissement des connaissances sur la régulation épigénétique dans les troubles neurodéveloppementaux ouvre des opportunités pour des interventions thérapeutiques. Par exemple, des études ont montré que l’inhibition de l’histone désacétylase (HDAC) peut prévenir ou même inverser les déficits de mémoire dans un modèle murin du syndrome de Kabuki, en favorisant des états de chromatine ouverte. Cela suggère que des gènes cibles critiques, potentiellement comme HOXA5, pourraient être régulés par l’épigénétique et offrir des voies pour explorer de nouvelles stratégies thérapeutiques pour inverser les déficits neurodéveloppementaux.

L’avenir des diagnostics des maladies rares repose sur l’intégration coordonnée et l’analyse de multiples modalités omiques, notamment la génomique, la transcriptomique, l’épigénomique, la protéomique et la métabolomique. Bien que les approches multi-omiques actuelles impliquent souvent des analyses indépendantes suivies d’une référence croisée, le véritable potentiel réside dans le développement de pipelines analytiques multi-omiques intégrés, probablement avec l’aide de programmes d’intelligence artificielle. À court terme, ces technologies fonctionneront comme des tests de deuxième ligne pour résoudre les VUS après une analyse ADN primaire, mais à l’avenir, elles pourraient devenir des tests de première ligne, permettant une évaluation parallèle et complète dès le début du parcours diagnostique.

BibliographIE

Marwaha, S., Knowles, J. W., & Ashley, E. A. (2022). A guide for the diagnosis of rare and undiagnosed disease: beyond the exome. Genome Medicine, 14(23). https://doi.org/10.1186/s13073-022-01026-w

Kernohan, K. D., & Boycott, K. M. (2024). The expanding diagnostic toolbox for rare genetic diseases. Nature Reviews Genetics. https://doi.org/10.1038/s41576-023-00683-w

Butcher, D. T., Cytrynbaum, C., Turinsky, A. L., Siu, M. T., Inbar-Feigenberg, M., Mendoza-Londono, R., Chitayat, D., Walker, S., Machado, J., Caluseriu, O., Dupuis, L., Grafodatskaya, D., Reardon, W., Gilbert-Dussardier, B., Verloes, A., Bilan, F., Milunsky, J. M., Basran, R., Papsin, B., Stockley, T. L., Scherer, S. W., Choufani, S., Brudno, M., & Weksberg, R. (2017). CHARGE and Kabuki Syndromes: Gene-Specific DNA Methylation Signatures Identify Epigenetic Mechanisms Linking These Clinically Overlapping Conditions. The American Journal of Human Genetics, 100(4), 544–549. http://dx.doi.org/10.1016/j.ajhg.2017.04.004

Les maladies rares affectent des millions de personnes dans le monde, touchant environ 30 millions de personnes aux États-Unis et plus de 300 à 400 millions dans le monde entier, entraînant souvent des maladies chroniques, des handicaps et des décès prématurés. On estime à environ 7 000 le nombre de maladies rares définies, et de nombreuses autres relèvent de la catégorie des maladies non diagnostiquées. Historiquement, les techniques diagnostiques s’appuient fortement sur des approches heuristiques, combinant l’expérience clinique des présentations antérieures de maladies rares avec la littérature médicale. En conséquence, un grand nombre de patients atteints de maladies rares restent non diagnostiqués pendant des années, et beaucoup décèdent même sans diagnostic précis. Le délai moyen pour un diagnostic précis d’une maladie rare est d’environ 4 à 5 ans, pouvant aller jusqu’à plus d’une décennie dans certains cas. Ce “parcours diagnostique” coûteux et émotionnellement éprouvant conduit souvent à un manque de diagnostic ou même à un diagnostic erroné.

Ces dernières années, les panels de gènes, les microréseaux et le séquençage de l’exome (ES) ont contribué à identifier la cause moléculaire de ces maladies rares et non diagnostiquées, permettant des diagnostics pour une proportion significative (25 à 35%) de patients non diagnostiqués, souvent avec des résultats exploitables. Cependant, une grande proportion de ces patients restent non diagnostiqués. Environ 80% des maladies rares ont une origine génétique. Le séquençage de l’exome, qui cible les régions codant pour les protéines (moins de 2% du génome), a permis d’identifier de nombreuses maladies non diagnostiquées. L’analyse de trios parent-enfant, par opposition à des singletons, a montré une réduction significative du nombre de variants candidats et un doublement des chances de diagnostic. Malgré ces avancées, une minorité de patients reçoivent un diagnostic moléculaire définitif. Cet article vise à guider les cliniciens et les chercheurs sur les stratégies à adopter lorsque le séquençage de l’exome ne donne pas de résultats concluants.

Technologies de séquençage avancées au-delà de l’exome

L’ES, bien que rentable, présente des limitations telles qu’une couverture non uniforme (en particulier dans les premiers exons, les régions riches en GC/AT et les régions de faible complexité) et est limitée par la spécificité des sondes de capture. Il a également un succès modeste dans la détection des variants structuraux, des répétitions en tandem et des variants pathogènes dans les régions introniques profondes.

  1. Séquençage du génome entier (SGT) à courte lecture : Le SGT peut identifier des variants structuraux canoniques et complexes, des répétitions en tandem et des variants introniques et codants qui peuvent ne pas être capturés avec précision par l’ES. Les variants structuraux (SV) sont des variants de plus de 50 paires de bases, incluant des délétions, des duplications, des insertions, des inversions, des insertions d’éléments mobiles et des réarrangements complexes. Le SGT est un meilleur outil pour étudier les SV car ils englobent souvent plusieurs exons ou gènes. Les répétitions courtes en tandem (STR) sont de courtes séquences d’ADN (1-6 pb) répétées plusieurs fois et sont impliquées dans de nombreuses maladies neurologiques et génétiques. Des outils bioinformatiques récents ont été développés pour prédire les STR à partir de données de séquençage à courte lecture. Le SGT à courte lecture a permis l’identification de variants causaux pour de nombreux cas non diagnostiqués où l’ES était non concluant, ouvrant même des voies thérapeutiques. Cependant, malgré sa capacité à détecter des variants complexes, leur interprétation reste difficile, en particulier pour les variants non codants. Le SGT à courte lecture a un succès limité dans la détection des SV larges et complexes, ainsi que des répétitions en tandem longues ou situées dans des régions très répétitives et/ou riches en GC.
  2. Séquençage à longue lecture (LRS) : Le LRS génère des lectures typiquement de 10 à 60 kb, certaines atteignant 2 Mb, ce qui améliore l’alignement au génome de référence et la détection des SV, en particulier dans les éléments répétitifs, les duplications segmentaires ou les régions à forte teneur en GC. Le LRS permet également le phasage d’haplotypes – l’attribution de variants génétiques aux chromosomes paternels ou maternels homologues – ce qui aide à identifier les mutations hétérozygotes composites et les mutations de novo autosomiques dominantes. Deux plateformes principales sont le séquençage SMRT de Pacific Biosciences et le séquençage basé sur les nanopores d’Oxford Nanopore Technologies. Le LRS permet également la détection directe de nucléotides méthylés, capturant de nombreux types de modifications de base (y compris 5mC, 4mC et 6mA) simultanément, évitant ainsi les étapes de conversion au bisulfite et d’amplification de l’ADN et les biais associés. Le LRS détient la promesse de détecter les SNV, les INDEL, les SV simples et complexes, les répétitions en tandem et les modifications de méthylation, et de fournir des informations sur le phasage. Bien que le LRS soit prometteur pour les maladies génétiques non diagnostiquées, son coût reste un défi, même si celui de l’ONT est comparable au séquençage à courte lecture. Une solution intermédiaire attrayante est une approche hybride combinant les avantages de chaque technologie, par exemple, un LRS à faible couverture avec un SGT à courte lecture à couverture plus élevée, ou un LRS ciblé pour évaluer des gènes candidats ou en cas de suspicion de maladies à répétitions en tandem ou de réarrangements complexes.
  3. Référence pan-génome : Le génome de référence humain actuel est une séquence consensuelle haploïde linéaire dérivée d’un très petit nombre d’individus, ce qui lui fait défaut en diversité génétique observée à travers les populations. Cela peut entraîner un biais de référence où les lectures sont mal alignées ou non alignées dans des régions très polymorphes ou répétitives, ou des variants rares peuvent être manqués. Un pan-génome, qui représente une collection de toutes les séquences génomiques d’une population, réduit ce biais de référence, améliorant la précision de l’alignement et l’appel de variants. Cette approche est cruciale pour détecter des variants structuraux nouveaux, des INDEL larges et des mutations affectant l’expression allélique spécifique. Le modèle pan-génomique peut aider à détecter des variants plus précis pour les patients atteints de maladies rares issus de populations sous-représentées. Bien que le pan-génome n’ait pas encore conduit directement à un diagnostic, des efforts sont en cours et il devrait améliorer les diagnostics des patients ultra-rares.

Technologies complémentaires (‘Omics’)

L’intégration des données de séquençage avec d’autres technologies, collectivement appelées “omiques”, peut fournir des pistes pour découvrir la mutation sous-jacente dans les maladies non diagnostiquées lorsque le séquençage est non concluant. Le choix de l’analyse est souvent guidé par le phénotype du patient.

  1. Transcriptomique (séquençage d’ARN) : La transcriptomique peut aider à prioriser les variants potentiellement pathogènes en complétant le séquençage d’ADN. Elle peut classer un variant de signification inconnue (VUS) et donner un aperçu du mécanisme de la maladie, ou identifier un variant dans le second allèle d’une maladie récessive. L’utilisation des tissus affectés est recommandée pour le séquençage d’ARN, mais des alternatives comme le sang, les fibroblastes et les cellules souches pluripotentes induites (iPSC) sont prometteuses. Les approches d’analyse des données de séquençage d’ARN incluent :
    • Les valeurs aberrantes d’expression : identifier les gènes exprimés à des niveaux extrêmement élevés ou bas en comparant le patient à une cohorte de contrôle, généralement à l’aide de Z-scores.
    • Les variants d’épissage aberrants : détecter les erreurs dans le processus d’épissage qui causent diverses maladies, y compris les maladies mendéliennes rares. Cela permet de re-prioriser des variants synonymes et introniques profonds qui seraient normalement filtrés.
    • L’expression allélique spécifique (EAS) : identifier les cas où un allèle a une expression significativement plus élevée que l’autre, ce qui peut révéler des variants hétérozygotes rares.
    • Les variants structuraux transcriptomiques (VST) : détecter les modifications dans l’ARN transcrit causées par des SV génomiques, comme les fusions de gènes, qui peuvent altérer la fonction génique. Le transcriptomique à longue lecture peut déterminer la séquence d’ARN pleine longueur, améliorant l’analyse de l’épissage alternatif, potentiellement la découverte de nouvelles isoformes et de fusions de gènes, ainsi que l’identification de l’expression allélique spécifique par le phasage d’haplotypes. Le transcriptomique unicellulaire (scRNA-seq) mesure l’expression des gènes au sein de chaque cellule, permettant d’étudier l’hétérogénéité des échantillons et la variation intercellulaire, conduisant à la découverte de types de cellules nouveaux et rares.
  2. Profilage de méthylation : Les modifications épigénétiques comme la méthylation de l’ADN ont des implications importantes dans les maladies rares. Le profilage de méthylation est envisagé en cas de suspicion de troubles d’empreinte génomique ou de VUS dans un gène de méthylation connu. Les techniques comme le RRBS, le WGBS et le séquençage à longue lecture peuvent être utilisées pour évaluer la méthylation de l’ADN à l’échelle du génome. Des modèles d’apprentissage automatique basés sur les données de méthylation de l’ADN ont été développés pour prédire certains syndromes mendéliens, et ont conduit au développement d’EpiSign, un essai clinique de méthylation.
  3. Métabolomique : Les études métabolomiques fonctionnelles ont aidé à découvrir le mécanisme de la maladie et même à améliorer la prise en charge ou le traitement dans certains cas de troubles métaboliques rares non expliqués. Les résultats de la métabolomique peuvent inciter à réanalyser les données de séquençage de l’exome, puis le séquençage d’ARN, conduisant au diagnostic. Cependant, les changements métaboliques peuvent être subtils ou influencés par le régime alimentaire ou les médicaments du patient, rendant l’analyse difficile.
  4. Protéomique : La protéomique, bien qu’ayant un débit plus faible, peut révéler des altérations dans la synthèse, la stabilité, la dégradation et la signalisation des protéines. L’analyse du protéome basée sur la spectrométrie de masse a guidé les diagnostics génétiques ciblés et a permis de découvrir les mutations génomiques sous-jacentes chez des patients où l’ES avait échoué en raison de limitations de séquençage. Les techniques de cytométrie (flux et masse) peuvent étudier l’hétérogénéité cellulaire et la phospho-signalisation.

L’intégration de toutes ces données “omiques” représente une approche de biologie des systèmes qui, malgré le manque d’un cadre unique pour les intégrer, devrait améliorer considérablement le rendement diagnostique et la compréhension des mécanismes moléculaires des maladies.

Études fonctionnelles

Les études fonctionnelles sont essentielles pour démêler les mécanismes moléculaires d’un gène potentiellement pathogène, renforcer le cas de causalité et fournir des informations pour le développement de thérapies.

  • Systèmes modèles : Les variants pathogènes peuvent être modélisés in vivo (mouches, vers, poissons-zèbres, souris) ou in vitro (lignées cellulaires, cellules primaires, iPSC). Les iPSC sont particulièrement précieuses pour les troubles rares qui affectent les tissus inaccessibles comme les neurones ou les cardiomyocytes.
  • Tests de dépistage fonctionnel : Ces plateformes puissantes évaluent l’impact des variants sur des milliers de gènes en une seule expérience, grâce à des approches telles que la mutagénèse germinale, CRISPR/Cas9, les tests de rapporteur basés sur les plasmides, l’interférence ARN, les criblages chimiques et les tests multiplex d’effet de variant. Les criblages CRISPR/Cas9 permettent de profiler les phénotypes cellulaires résultant de milliers de perturbations génétiques, de lier de nouveaux gènes aux maladies rares, de comprendre les mécanismes moléculaires et d’explorer des cibles thérapeutiques.

Cependant, ces études sont chronophages et aucun système modèle ne peut reproduire complètement une maladie humaine.

Méthodes computationnelles et automatisation

  1. Correspondance de cas (Case Matching) : Le manque de patients avec des phénotypes similaires est un défi majeur. Des algorithmes et plateformes ont été développés pour découvrir des cas avec des phénotypes et des gènes altérés communs. Le Matchmaker Exchange (MME), lancé en 2015, est un réseau fédéré qui facilite l’interaction entre diverses bases de données de maladies rares de manière rationalisée et automatisée, permettant d’identifier des cas non apparentés avec un variant potentiellement pathogène dans le même gène candidat et un phénotype chevauchant. Le MME a facilité l’identification de nombreuses associations gène-maladie et expansions de phénotypes. L’intégration des données de variants et de phénotypes des patients avec leurs caractéristiques faciales (images) peut réduire considérablement la recherche de syndromes rares potentiels. L’apprentissage automatique est également appliqué aux bases de données de dossiers de santé électroniques (DSE) pour identifier des patients ayant des trajectoires de maladie similaires.
  2. Réanalyse automatisée : Il est crucial de réanalyser périodiquement les données de séquençage avec les pipelines analytiques, les bases de données de fréquence de variants et la littérature les plus récents, ainsi que les mises à jour du phénotype du patient. La réévaluation des données génomiques a montré une augmentation du rendement diagnostique. L’utilisation d’ontologies standard comme l’Ontologie du Phénotype Humain (HPO) aide à prioriser les gènes candidats liés au phénotype du patient. Des outils comme Exomiser, AMELIE et Xrare recherchent les associations gène-phénotype. Des outils comme ClinPhen et CLiX extraient les phénotypes pertinents des notes cliniques ou des DSE et les convertissent en termes HPO, permettant ainsi le développement d’un pipeline automatisé pour la priorisation des variants basée sur le phénotype. Pour accélérer l’analyse génomique et l’implémenter cliniquement, des plateformes de cloud computing et de nouveaux matériels comme DRAGEN (utilisant la technologie FPGA) ont été conçus pour réduire le délai d’obtention des résultats.

Défis persistants

Le diagnostic précis des patients atteints de maladies rares implique des défis techniques, financiers et politiques.

  • Obstacles techniques : L’interprétation des variants non codants et des VUS nécessite l’utilisation de technologies avancées (LRS, RNA-seq, épigénomique) et d’algorithmes (SpliceAI, genomiser). La réanalyse périodique et automatisée des données génomiques peut aider à résoudre certains VUS et variants introniques à mesure que de nouvelles découvertes gène-maladie sont faites.
  • Biais lié à l’ascendance : Les bases de données de variants sont souvent biaisées en faveur des populations d’ascendance européenne, ce qui rend l’interprétation de l’ES/SGT pour les individus d’ascendance non européenne plus difficile, coûteuse et chronophage. Des efforts sont faits pour séquencer des populations plus diverses et sous-représentées (gnomAD, GenomeAsia 100K, All of Us). L’inclusion de la diversité génétique dans le génome de référence pan-génomique est une approche complémentaire.
  • Coût : Le coût représente l’un des plus grands défis. La plupart des technologies mentionnées ne sont souvent pas disponibles cliniquement ou couvertes par l’assurance maladie des patients et sont fournies par peu de programmes de recherche dans les pays développés. Bien que le SGT rapide ait montré une amélioration de la prise en charge des maladies et une réduction des coûts hospitaliers dans certains cas, davantage d’analyses coût-efficacité sont nécessaires pour justifier la couverture par l’assurance. Des améliorations continues en matière de précision et d’accessibilité financière devraient rendre ces technologies plus abordables à l’avenir.

Conclusion

Les panels de gènes, les microréseaux et l’ES ont identifié de nombreuses mutations causales sous-jacentes pour les patients atteints de maladies rares, mais une proportion significative reste non diagnostiquée. L’article met en évidence diverses approches pour améliorer le rendement diagnostique et élucider le mécanisme moléculaire de la maladie, notamment :

  • Le complément du SGT à courte lecture avec le séquençage d’ARN, la métabolomique, la protéomique et le profilage de méthylation.
  • Le séquençage à longue lecture comme alternative prometteuse lorsque le SGT à courte lecture n’est pas concluant.
  • L’importance de la validation fonctionnelle des variants candidats ou causaux à l’aide de systèmes modèles in vitro et in vivo pour améliorer la compréhension des mécanismes moléculaires et ouvrir des voies thérapeutiques.
  • L’implémentation périodique de pipelines computationnels rapides et automatisés pour identifier de nouvelles associations gène-maladie ou trouver des patients similaires dans le monde.
  • La reconnaissance du biais lié à l’ascendance dans les bases de données génomiques et l’importance d’inclure des ethnies diverses et d’utiliser une référence pan-génome pour améliorer la précision diagnostique des populations sous-représentées.

Le coût reste un obstacle majeur à la disponibilité clinique. Cependant, les améliorations continues de la précision et de l’abordabilité des technologies à haut débit devraient permettre de combler le fossé diagnostique pour les patients non diagnostiqués. La mise en œuvre réussie d’études multidisciplinaires complémentaires est envisagée comme un changement de paradigme dans la manière dont les patients non diagnostiqués sont diagnostiqués et traités.

Introduction aux maladies rares et à leur diagnostic Les maladies rares, définies comme affectant moins de 1 personne sur 2 000, touchent plus de 400 millions de personnes dans le monde. Environ 80 % de ces maladies ont une origine génétique. Bien que le nombre total de maladies rares soit encore inconnu, la base de données OMIM (Online Mendelian Inheritance in Man) répertorie actuellement plus de 6 300 associations gène-maladie uniques. Ces affections sont souvent sévères, environ deux tiers sont mortelles et 70 % débutent durant l’enfance, avec 30 % des enfants ne survivant pas au-delà de leur cinquième anniversaire. Le diagnostic présente des avantages immenses, notamment la compréhension des symptômes, l’accès à des traitements ciblés et le conseil génétique pour la famille. Cependant, moins de 50 % des patients reçoivent un diagnostic, et encore moins le reçoivent en temps opportun.

Le domaine du dépistage génétique a parcouru un long chemin depuis l’analyse chromosomique des années 1950. L’avènement des technologies de séquençage de nouvelle génération (NGS) dans les années 2010 a exponentiellement augmenté la disponibilité des tests génétiques. Bien que les techniques traditionnelles soient encore utilisées, de nouvelles approches telles que le séquençage à lecture longue et la cartographie optique du génome émergent du domaine de la recherche pour identifier des changements génomiques plus complexes. De plus, les technologies omiques (transcriptomique, épigénomique, protéomique, lipidomique et métabolomique) sont prometteuses en tant qu’essais fonctionnels secondaires pour l’interprétation des variants.

Utilisation actuelle du séquençage de nouvelle génération (NGS) Le NGS a été rapidement adopté dans les laboratoires de recherche et de diagnostic. En 2021, le marché mondial du séquençage de l’ADN s’élevait à 15,7 milliards de dollars américains. Les approches NGS se concentrent généralement sur l’identification des variants germinaux (présents dans toutes les cellules), mais elles peuvent également détecter les variants somatiques (mosaïques) et les mutations de l’ADN mitochondrial (ADNmt). Pour ces cas, une profondeur de lecture beaucoup plus élevée (500-1000x) est souvent nécessaire.

Le diagnostic actuel des maladies rares suit un processus en quatre étapes :

  1. Consultation clinique : Historique médical et familial, examen physique.
  2. Sélection du test et collecte d’échantillons : Choix entre panels géniques (1-100s de gènes), séquençage de l’exome (toutes les bases codantes) ou séquençage du génome. Les panels sont adaptés aux conditions avec un phénotype défini, tandis que les approches à l’échelle du génome sont plus efficaces pour l’hétérogénéité génétique. Le test en trio (individu affecté et ses parents) est plus efficace pour les tests complexes, car il réduit le temps d’analyse des données et évite les études de ségrégation longues.
  3. Test en laboratoire et rapports : Extraction et préparation de l’ADN, séquençage, analyse bioinformatique (alignement, appel de variants, annotation) et filtrage des données pour n’examiner que les variants rares et pertinents.
  4. Suivi clinique : Corrélation des résultats génétiques avec la présentation clinique et conseil génétique.

Limites des approches NGS Malgré leurs avantages, les technologies NGS ont des limites importantes:

  • Couverture incomplète : Certaines régions génomiques (riches en GC, de faible complexité, homologues) sont difficiles à capturer ou à aligner. Le séquençage de l’exome couvre ~95 % des paires de bases codantes, et le séquençage du génome ~98 %.
  • Détection limitée des variants structuraux (SV) : Les panels et le séquençage de l’exome ne détectent pas les SV autres que les CNV (variants en nombre de copies). Le séquençage du génome peut détecter les SV, mais avec des limites de taille (>10 kb).
  • Difficulté avec les régions répétitives : Le séquençage à lecture courte ne peut pas identifier de manière fiable les changements dans les régions répétitives du génome, y compris les expansions de répétitions.
  • Imperfections des pipelines d’analyse : Les pipelines bioinformatiques ne sont pas parfaits, et certains variants peuvent être manqués.
  • Interprétation des variants de signification incertaine (VUS) : Le NGS génère un grand nombre de VUS dont la signification clinique est incertaine, ce qui constitue un défi majeur.
  • Connaissance limitée des régions non codantes : L’annotation des variants introniques profonds et intergéniques est très limitée, rendant leur contribution à la maladie presque impossible à évaluer.

Valeur continue des techniques de laboratoire traditionnelles (Encadré 1) Il est crucial de ne pas oublier les tests traditionnels, qui peuvent être les méthodes d’analyse les plus appropriées ou les plus rentables dans certains cas.

  • Séquençage Sanger : Rentable et sensible pour les variants germinaux ciblés spécifiques.
  • Caryotypage : Optimal et peu coûteux pour détecter les SV à grande échelle comme les translocations et inversions, qui sont difficiles à détecter avec le NGS à lecture courte.
  • Microarrays chromosomiques : Outil précieux pour les CNV, offrant une résolution plus élevée pour la détection des CNV codants.
  • PCR amorcée par triplet (TP PCR) / Southern blot : La norme d’or pour le diagnostic des troubles à répétitions courtes (STR), car le NGS à lecture courte est moins sensible et plus coûteux pour ces régions.
  • MS-MLPA (Methylation-Specific MLPA) : Méthode ciblée et rentable pour détecter les troubles d’empreinte où le mécanisme de la maladie est une altération de la méthylation de l’ADN.

Technologies émergentes

  1. Interrogation de l’ADN pour l’identification des variants :
    • Séquençage à lecture longue (LRS) : Les technologies de séquençage à lecture longue (PacBio, Oxford Nanopore Technologies – ONT, lectures courtes liées 10x Genomics) produisent des lectures beaucoup plus longues (10 à 2 Mo). Elles offrent un alignement amélioré sur le génome de référence et une meilleure détection des SV, en particulier dans les éléments répétitifs ou les duplications segmentaires, et dans les régions à forte teneur en GC. Le LRS permet également le phasage des haplotypes (assignation des variants génétiques aux chromosomes paternels ou maternels). Le LRS peut aussi détecter directement les nucléotides méthylés.
      • Avantages du LRS :
        • Couverture uniforme de toutes les régions du génome, y compris les régions répétitives.
        • Amélioration de l’appel des CNV et SV par rapport au séquençage à lecture courte.
        • Détection de l’expansion de répétitions (comme les répétitions GAA dans FGF14 causant l’ataxie spinocérébelleuse de type 27B).
        • Permet le phasage des haplotypes pour les variants.
        • Coût comparable au séquençage à lecture courte pour ONT.
      • Défis du LRS : Nécessite une extraction d’ADN non standard, manque de cohortes de contrôle, algorithmes encore en développement.
    • Cartographie optique du génome (OGM) : Cette approche détecte les SV (délétions, insertions, expansions de répétitions, translocations, inversions et aneuploïdies) de 500 pb à des chromosomes entiers. Ce n’est pas une méthode de séquençage, mais une procédure de marquage de l’ADN suivie d’une imagerie à haute résolution. L’OGM vise à remplacer le caryotypage et les microréseaux d’ADN, et peut détecter le mosaïcisme de faible niveau.
      • Avantages de l’OGM : Meilleure détection des CNV et SV par rapport au séquençage à lecture courte, résolution plus élevée que les microréseaux.
      • Défis de l’OGM : Nécessite une extraction d’ADN non standard, manque de cohortes de contrôle, résolution limitée dans certaines régions génomiques, ne détecte pas les triploïdies et translocations impliquant le centromère.
  1. Essais fonctionnels pour l’interprétation des variants (technologies omiques) : Ces technologies explorent au-delà de l’ADN (ARN, protéines, lipides, petites molécules) pour résoudre les VUS et orienter l’identification des variants.
    • Séquençage de l’ARN (RNA-seq) : Outil puissant pour identifier les variations qui affectent l’expression de l’ARNm et l’épissage, même en dehors des sites d’épissage canoniques. Il permet l’analyse des valeurs aberrantes d’expression, de l’épissage aberrant, de l’expression allèle-spécifique (ASE), de l’appel de SNV et des variants structuraux transcriptomiques (TSV). Des études ont montré des rendements diagnostiques allant de 7,5 % à 36 %.
      • Avantages : Fournit une lecture fonctionnelle des produits ARN pour l’expression et l’épissage.
      • Défis : Tissus pertinents souvent non disponibles, profils très variables dans les cohortes de contrôle, manque de cohortes adaptées aux différentes démographies.
    • Profilage épigénomique : La méthylation de l’ADN est la modification épigénétique la plus étudiée et peut aider à clarifier la pathogenicité des variants et à orienter le diagnostic. Les profils de méthylation de l’ADN, évalués par microréseaux, ont défini des signatures pour de nombreuses maladies rares, notamment les syndromes de CHARGE et de Kabuki. Ces signatures peuvent différencier les mutations pathogènes des variants bénins et même distinguer les syndromes de CHARGE et de Kabuki l’un de l’autre.
      • Avantages : Peut confirmer la pathogenicité des variants et suggérer des diagnostics.
      • Défis : Résolution limitée, manque de cohortes de contrôle et de signatures publiées comparables.
    • Métabolomique et lipidomique : Fournissent des lectures fonctionnelles qui peuvent confirmer un diagnostic et/ou guider les tests ADN, en particulier pour les erreurs innées du métabolisme. La métabolomique cible les petites molécules (lipides, acides aminés, sucres, acides organiques). La lipidomique se concentre sur les lipides hydrophobes.
      • Avantages : Peut être ciblée ou non ciblée, utile pour les erreurs innées du métabolisme.
      • Défis : Profils très variables influencés par de nombreux facteurs (génétique, mode de vie, régime alimentaire, médicaments), manque de cohortes de contrôle développées.
    • Protéomique : L’étude des protéines dans un échantillon, pouvant révéler des altérations dans la synthèse, la stabilité, la dégradation et la signalisation des protéines. La protéomique peut fournir non seulement un diagnostic mais aussi une compréhension mécanistique de l’étiologie moléculaire des maladies.
      • Avantages : Fournit une lecture fonctionnelle directe des protéines.
      • Défis : Débit plus faible que les autres “omiques”, volume de données important pour l’analyse non ciblée, pas encore aussi répandue.
    • Essais multiplexés de l’effet des variants (MAVE) : Combinaison de la mutagénèse par saturation avec des essais hautement multiplexés pour étudier les effets des variants. Cette approche vise à produire une carte de l’effet des variants, établissant l’effet fonctionnel de la mutation de toutes les bases d’ADN et/ou des acides aminés dans un gène ou un élément génomique donné.

Défis à l’adoption clinique Plusieurs obstacles entravent l’intégration clinique rapide de ces technologies:

  • Cohortes de contrôle : La disponibilité de cohortes de contrôle appropriées est primordiale pour toutes les analyses omiques. Les bases de données actuelles (comme gnomAD) manquent de représentation de diverses ethnies, ce qui rend l’interprétation des variants difficile pour ces populations.
  • Connaissances spécifiques et exigences de validation : L’augmentation du nombre de techniques exige une expertise étendue et difficile à obtenir pour les petits laboratoires. Il manque des ensembles de données de référence (truth sets) et des meilleures pratiques pour chaque type d’analyse.
  • Données sur les services de santé et l’économie : Les données sur l’utilité clinique et la rentabilité sont nécessaires pour justifier le remboursement de ces tests, mais elles sont souvent difficiles à générer et spécifiques à chaque juridiction.

Perspectives d’avenir

  • Analyses multi-omiques coordonnées et intégrées : L’intégration de plusieurs approches omiques (génomique, transcriptomique, épigénomique, protéomique, métabolomique) détient un potentiel inexploité. À l’avenir, des analyses multi-omiques intégrées, probablement avec l’aide de l’intelligence artificielle, seront nécessaires pour identifier les variants causant des maladies. À court terme, les technologies omiques serviront probablement de tests de seconde intention pour clarifier les VUS.
  • Partage de données : Le partage des données génétiques à l’échelle mondiale est essentiel pour accumuler suffisamment de jeux de données de patients afin d’identifier de nouveaux gènes de maladies rares, des variants pathogènes et de résoudre les VUS. Des initiatives internationales comme le Matchmaker Exchange, ClinVar et DECIPHER facilitent déjà le partage d’informations sur les variants et les phénotypes.
  • Combler le fossé entre la recherche et la clinique : La réanalyse des données de séquençage est une première étape cruciale pour les patients qui n’ont pas obtenu de diagnostic initialement. Des collaborations mondiales entre la recherche et la clinique sont nécessaires pour avancer les connaissances et rendre les études multi-omiques accessibles.

Conclusion La boîte à outils diagnostique pour les maladies rares est en pleine expansion, offrant un espoir pour un diagnostic presque à 100 %. Cependant, cette évolution rend le parcours diagnostique plus complexe. L’amélioration continue de la précision et de l’abordabilité des technologies, le développement de cohortes de contrôle diversifiées, le partage de l’expertise et des données à l’échelle mondiale, et l’optimisation des algorithmes diagnostiques sont cruciaux pour combler le déficit diagnostique et concrétiser la médecine de précision pour les patients atteints de maladies rares.

 

Ces syndromes sont causés respectivement par des mutations avec perte de fonction (LOF) dans les gènes CHD7 et KMT2D, qui codent pour des protéines impliquées dans la régulation épigénétique via le remodelage de la chromatine et les modifications des histones. Bien que distincts, les syndromes de CHARGE et de Kabuki partagent des caractéristiques cliniques telles que des anomalies cardiaques congénitales, une perte auditive, un retard de développement et une déficience intellectuelle, ce qui rend la distinction clinique difficile, en particulier chez les jeunes enfants où les traits faciaux caractéristiques du syndrome de Kabuki ne sont pas toujours évidents.

L’étude part de l’hypothèse que la comparaison des altérations de l’ADNmé à l’échelle du génome chez des individus présentant des mutations LOF hétérozygotes dans CHD7 et KMT2D permettrait d’identifier des signatures d’ADNmé spécifiques à chaque maladie, comprenant à la fois des gènes cibles communs expliquant le chevauchement clinique, et des gènes cibles distincts reflétant les caractéristiques cliniques divergentes.

Méthodologie Pour dériver les signatures d’ADNmé, les chercheurs ont utilisé des échantillons de sang total. La cohorte de Découverte comprenait 19 individus avec le syndrome de CHARGE et des mutations CHD7 LOF (nonsense, frameshift, délétions exoniques, mutations de site d’épissage) et 11 individus avec le syndrome de Kabuki et des mutations KMT2D LOF (nonsense, frameshift). Ces cohortes ont été comparées à des groupes de contrôle appariés en fonction de l’âge et du sexe. Une cohorte de Validation aveugle de 56 échantillons d’ADN avec des variants de CHD7 ou KMT2D (pathogènes, probablement pathogènes, ou de signification inconnue – VUS) a également été utilisée. De plus, 162 échantillons de contrôle d’ADNmé de sang provenant de bases de données publiques (GEO) ont été intégrés pour évaluer la spécificité des signatures.

Les échantillons d’ADN ont été traités par bisulfite de sodium et hybridés sur la puce Illumina Infinium HumanMethylation450 BeadChip Array, qui interroge plus de 480 000 sites CpG. L’analyse statistique a identifié les différences d’ADNmé significatives en utilisant la modélisation de régression limma et le test U de Mann-Whitney non-paramétrique, avec un seuil de signification FDR corrigé de p < 0,01 et une différence moyenne d’ADNmé (Db) supérieure à 10 %. Les sites CpG qui remplissaient ces critères ont été définis comme les signatures d’ADNmé. Des modèles de classification de machine à vecteurs de support (SVM) ont été construits pour prédire la pathogénicité putative des variants. L’indépendance de la composition des types de cellules sanguines a été vérifiée. Les régions différentiellement méthylées (DMR) ont été identifiées à l’aide de la méthode “bump hunting”, et une analyse d’enrichissement fonctionnel a été réalisée pour identifier les voies biologiques. La validation de l’ADNmé a été effectuée par pyroséquençage au bisulfite de sodium pour des loci génomiques sélectionnés.

Résultats

L’étude a identifié des signatures d’ADNmé uniques et hautement spécifiques pour chaque syndrome.

  • La signature d’ADNmé CHD7 LOF comprenait 163 sites CpG différentiellement méthylés, distinguant clairement les individus affectés des contrôles.
  • La signature d’ADNmé KMT2D LOF comportait 221 sites CpG différentiellement méthylés, permettant également une distinction nette.

Les modèles prédictifs basés sur ces signatures ont démontré une spécificité de 100% : le modèle CHD7 LOF n’a pas classé les individus KMT2D LOF comme positifs pour CHD7, et vice versa. Tous les 162 échantillons de contrôle issus de bases de données publiques ont obtenu de faibles scores de prédiction pour les deux syndromes, confirmant la spécificité des signatures. La validation sur la cohorte aveugle a montré une sensibilité de 100%, classant correctement toutes les mutations CHD7 et KMT2D pathogènes ou probablement pathogènes. Fait intéressant, une mutation pathogène dans KDM6A, un gène également associé au syndrome de Kabuki, a reçu un score élevé du modèle KMT2D LOF, suggérant un chevauchement potentiel des signatures de méthylation entre ces deux gènes.

L’application des modèles prédictifs aux variants de signification inconnue (VUS) a été particulièrement éclairante.

  • Sur 13 VUS dans CHD7, 6 ont été classés comme pathogènes et 7 comme bénins par la signature d’ADNmé CHD7 LOF. Ces classifications étaient parfois discordantes avec les critères cliniques existants pour le syndrome de CHARGE (critères de Verloes et Hale) et les outils de prédiction in silico (PolyPhen-2, SIFT, Mutation Taster). Par exemple, trois individus ne répondant pas aux critères cliniques de CHARGE ont été identifiés comme ayant une mutation pathogène par la signature, tandis qu’un individu répondant aux critères n’avait pas la signature.
  • Sur 10 VUS dans KMT2D, 1 a été classé comme pathogène et 8 comme bénins. Un VUS a donné un score intermédiaire.

L’analyse des gènes cibles différentiellement méthylés a révélé des chevauchements significatifs. 14 sites CpG étaient partagés par les deux signatures, dont 11 dans le gène HOXA5 et 3 dans SLITRK5.

  • Les sites CpG de HOXA5 ont montré un gain d’ADNmé dans les deux signatures CHD7 LOF et KMT2D LOF, un changement validé par pyroséquençage et potentiellement responsable d’une expression réduite de HOXA5.
  • Les sites CpG de SLITRK5 ont montré des changements d’ADNmé dans des directions opposées : une perte d’ADNmé dans CHD7 LOF et un gain d’ADNmé dans KMT2D LOF.

Des cibles spécifiques à chaque syndrome ont également été identifiées :

  • Pour CHD7 LOF, FOXP2 a montré une perte d’ADNmé.
  • Pour KMT2D LOF, MYO1F a montré une perte d’ADNmé.

Les analyses d’enrichissement fonctionnel ont montré que les gènes cibles des signatures d’ADNmé CHD7 LOF et KMT2D LOF sont significativement surreprésentés dans les catégories de processus biologiques liées au développement embryonnaire du cerveau, de l’oreille, du système digestif et d’autres systèmes, reflétant les caractéristiques phénotypiques des syndromes de CHARGE et de Kabuki.

Discussion et Implications

L’étude met en évidence la capacité des signatures d’ADNmé à agir comme des outils moléculaires fonctionnels pour interpréter la pathogénicité des variants de séquence dans CHD7 et KMT2D, offrant une méthode précieuse pour classer les VUS. Ceci est particulièrement pertinent car les critères cliniques et les outils in silico peuvent être inconsistants. La capacité à détecter des mutations LOF qui pourraient ne pas être identifiées par les techniques de séquençage classiques représente une avancée significative pour améliorer les taux de diagnostic moléculaire.

Les résultats confirment également une connexion moléculaire mécanistique entre les syndromes de CHARGE et de Kabuki. L’interaction des protéines CHD7 et KMT2D avec les membres du complexe WAR, déjà suggérée dans des études antérieures, est renforcée par la découverte de cibles CpG communes telles que HOXA5 et SLITRK5. La régulation de HOXA5 par les deux gènes pourrait expliquer des caractéristiques cliniques partagées comme les retards de croissance, les anomalies squelettiques et rénales, et les déficiences du développement neural. De plus, l’implication de FOXP2 dans le syndrome de CHARGE suggère une base moléculaire pour les difficultés de parole et de langage souvent observées.

L’observation que les mutations KDM6A montrent un chevauchement avec la signature KMT2D LOF est également cruciale, car KDM6A est une autre cause du syndrome de Kabuki. Cela suggère que ces deux gènes régulent des ensembles de gènes similaires, ce qui est cohérent avec leurs rôles fonctionnels superposés dans le développement.

L’étude souligne enfin le potentiel des interventions thérapeutiques basées sur des cibles épigénétiques. Des preuves de modèles murins, notamment pour le syndrome de Rett et le syndrome de Kabuki, montrent que les déficits neurologiques peuvent être prévenus ou inversés par des inhibiteurs d’histone désacétylase (HDAC), qui favorisent des états de chromatine ouverte. Cette approche ouvre des perspectives pour de nouvelles thérapies ciblant l’ADNmé dans les troubles neurodéveloppementaux causés par des épigènes.

Conclusion En conclusion, les signatures d’ADNmé spécifiques aux gènes CHD7 et KMT2D offrent une sensibilité et une spécificité élevées, permettant de différencier les mutations pathogènes des variants bénins et de classer les VUS, ce qui est d’une grande valeur clinique. Ces signatures fournissent des preuves de la dysrégulation de gènes clés impliqués dans le développement embryonnaire dans les syndromes de CHARGE et de Kabuki, et mettent en lumière des mécanismes moléculaires partagés et distincts qui sous-tendent leurs caractéristiques cliniques. Leurs applications futures pourraient inclure l’amélioration du diagnostic, la compréhension de la physiopathologie des maladies rares et l’exploration de nouvelles stratégies thérapeutiques ciblant les anomalies épigénétiques. Bien que des validations supplémentaires soient nécessaires, notamment avec des modèles de développement in vitro comme les cellules souches pluripotentes induites (iPSCs), cette recherche représente une avancée prometteuse vers la médecine de précision pour les patients atteints de maladies rares.

ICONOGRAPHIE

La Figure 1 de l’article “A guide for the diagnosis of rare and undiagnosed disease: beyond the exome” par Marwaha et al. (2022) est une représentation visuelle clé qui illustre un ensemble de technologies et de méthodes diagnostiques avancées, conçues pour être utilisées lorsque le séquençage de l’exome (ES) ne permet pas d’établir un diagnostic pour les maladies rares et non diagnostiquées. Cette figure souligne l’importance d’une approche complémentaire et intégrée pour combler les lacunes diagnostiques existantes.

L’article aborde le défi majeur que représentent les maladies rares, qui touchent des millions de personnes dans le monde et entraînent souvent des maladies chroniques, des handicaps et des décès prématurés. Bien que les techniques diagnostiques traditionnelles et le séquençage de l’exome aient permis de diagnostiquer une proportion significative (25 à 35 %) de patients non diagnostiqués, une large part d’entre eux reste sans diagnostic. C’est dans ce contexte que la Figure 1 propose des stratégies et des technologies de pointe pour aller au-delà de l’exome.

Voici une explication et un commentaire détaillés des éléments présentés dans cette figure :

Technologies de Séquençage Avancées :

  • Séquençage du Génome (GS – Genome Sequencing) [Fig. 1] :
    • Explication : Le séquençage du génome complet vise à capturer l’ensemble des régions génomiques, y compris les régions codantes (exons), les régions non codantes (introns, UTRs) et les frontières intron-exon. Contrairement à l’ES qui se concentre sur moins de 2% du génome codant pour des protéines, le GS offre une couverture plus uniforme et complète.
    • Commentaire : Le GS est présenté comme une étape cruciale après un ES non concluant. Ses avantages majeurs résident dans sa capacité à identifier des variants structurels (SVs) de plus de 50 paires de bases (y compris les délétions, duplications, insertions, inversions, translocations) qui sont souvent manqués par l’ES. Il peut également détecter des répétitions en tandem courtes (STRs) et des variants intronic profonds. Le GS a permis d’identifier des variants causaux dans de nombreux cas non diagnostiqués et même d’ouvrir des voies thérapeutiques en identifiant les mécanismes de la maladie. Cependant, le séquençage à courtes lectures (SRS), bien que capable de détecter de grands variants, a des limites dans les régions hautement répétitives et riches en GC ou pour les variants complexes. Le GS à courtes lectures a également une profondeur de lecture plus faible (~30x contre ~100x pour l’ES), ce qui peut rendre la détection de variants difficiles ou de variants mosaïques plus ardue.
  • Séquençage à Longues Lectures (Long-Read Sequencing – LRS) [Fig. 1] :
    • Explication : Le LRS génère des lectures beaucoup plus longues (typiquement 10-60 kb, parfois jusqu’à 2 Mb) que le SRS. Cela améliore considérablement l’alignement au génome de référence, en particulier dans les régions répétitives ou riches en GC qui sont difficiles d’accès avec le SRS. Le LRS permet également le phasage des haplotypes (assigner des variants aux chromosomes paternels ou maternels), et la détection directe des nucléotides méthylés.
    • Commentaire : Le LRS est une technologie prometteuse pour les maladies génétiques non diagnostiquées. Sa capacité à détecter les SVs complexes, les STRs longs ou ceux situés dans des régions difficiles à séquencer, ainsi que les modifications de méthylation, en fait un outil puissant pour résoudre des cas où le SRS a échoué. Bien que le coût du LRS soit encore un facteur limitant par rapport au SRS pour certaines plateformes, les avancées continues en précision et en coût devraient en faire une technologie clinique de routine à l’avenir. Il peut même s’agir d’un test unique pour plusieurs types de variants et pour le phasage.
  • Pan-Génome de Référence (Pan-genome reference) [Fig. 1] :
    • Explication : Le génome de référence humain actuel est une séquence consensuelle linéaire haploïde qui manque de diversité génétique observée à travers les populations. Cela peut entraîner des désalignements ou des non-alignements des lectures de séquençage, en particulier dans les régions hautement polymorphes ou répétitives, ou pour les variants rares. Un pan-génome est une collection de toutes les séquences génomiques dans une population, visant à surmonter ce biais.
    • Commentaire : L’alignement des lectures à un pan-génome améliore la précision de l’alignement et de l’appel des variants en réduisant le biais de référence. Cette approche est particulièrement bénéfique pour les patients issus de populations sous-représentées, pour lesquelles les bases de données génomiques actuelles sont biaisées envers l’ascendance européenne. Le pan-génome a le potentiel de détecter des variants structurels, de grandes INDELs et des mutations affectant l’expression allélique. Bien qu’il n’ait pas encore conduit à un diagnostic documenté, il est considéré comme un axe de développement majeur.

Technologies Omics Complémentaires :

Ces technologies offrent une lecture fonctionnelle des effets des variants, ce qui est crucial pour interpréter les variants de signification inconnue (VUS) et pour comprendre les mécanismes de la maladie. La sélection de ces essais doit être guidée par la présentation clinique du patient.

  • Transcriptomique (RNA-Seq) [Fig. 1] :
    • Explication : La transcriptomique, par le séquençage de l’ARN (RNA-seq), permet d’analyser les ARN messagers (ARNm) transcrits à partir de l’ADN. Elle peut révéler des valeurs aberrantes d’expression génique (expression excessivement haute ou basse), des épissages aberrants (erreurs dans le processus de suppression des introns et de jonction des exons), et l’expression allèle-spécifique (ASE).
    • Commentaire : La transcriptomique est un outil puissant pour prioriser les variants potentiellement pathogènes et pour fournir des informations sur le mécanisme de la maladie. Elle est particulièrement utile pour identifier le second variant dans une maladie récessive où le séquençage génomique n’a révélé qu’un seul variant pathogène. L’analyse de l’épissage anormal peut re-prioriser des variants synonymes ou intronic profonds. L’ASE aide à identifier les variants hétérozygotes rares. Le choix du tissu (sang, fibroblastes, cellules souches pluripotentes induites – iPSCs) est crucial car l’expression génique varie significativement d’un tissu à l’autre. Les études à cellule unique (scRNA-seq) peuvent révéler la variabilité cellulaire et de nouveaux types de cellules.
  • Métabolomique (Metabolomics) [Fig. 1] :
    • Explication : La métabolomique étudie l’ensemble des métabolites (petites molécules) présents dans un échantillon, reflétant ainsi l’état physiologique ou pathologique d’un individu.
    • Commentaire : Elle est particulièrement utile pour diagnostiquer les erreurs innées du métabolisme. Les études métabolomiques fonctionnelles peuvent aider à confirmer la causalité des mutations et même à orienter la gestion ou le traitement de la maladie. Cependant, le métabolome est très fluide et peut être influencé par des facteurs tels que le régime alimentaire ou les médicaments, ce qui rend l’analyse complexe.
  • Protéomique (Proteomics) [Fig. 1] :
    • Explication : La protéomique est l’étude à grande échelle de l’ensemble des protéines dans un échantillon. Elle peut révéler des altérations dans la synthèse, la stabilité, la dégradation ou la signalisation des protéines.
    • Commentaire : Étant donné que la plupart des maladies se manifestent au niveau de l’activité des protéines, la protéomique a un grand potentiel pour fournir non seulement un diagnostic mais aussi une compréhension mécanistique de l’étiologie moléculaire des maladies rares. Des analyses protéomiques ont permis d’identifier des mutations génomiques initialement manquées par l’ES en raison de limitations de séquençage.
  • Profilage de Méthylation (Methyl Profiling / Epigenomics) [Fig. 1] :
    • Explication : Le profilage de méthylation de l’ADN évalue les modifications épigénétiques, telles que la méthylation de l’ADN, qui régulent l’expression génique sans altérer la séquence d’ADN sous-jacente.
    • Commentaire : Il est pertinent en cas de suspicion de trouble d’empreinte génomique ou de VUS dans un gène lié à la méthylation. Des épisignatures (epi-signatures) uniques, caractérisées par des combinaisons de changements de méthylation à travers le génome, peuvent être spécifiques à différents syndromes génétiques. Ces signatures peuvent aider à prédire et à diagnostiquer des syndromes mendéliens. Par exemple, des signatures de méthylation spécifiques ont été identifiées pour le syndrome de CHARGE et de Kabuki, permettant de différencier les mutations pathogènes des variants bénins et de clarifier les VUS.
  • Tests Immunologiques (Immune Assays) [Fig. 1] :
    • Explication : Ces tests analysent les composants du système immunitaire pour détecter des anomalies.
    • Commentaire : Bien que les dosages cytométriques (comme la cytométrie en flux et de masse) n’aient pas encore conduit directement à des diagnostics pour les maladies rares, ils peuvent fournir des indices moléculaires et améliorer la compréhension de la maladie, en particulier pour les erreurs innées de l’immunité. Leur choix est guidé par le phénotype du patient.

Méthodes Complémentaires :

  • Études Fonctionnelles (Functional Studies) [Fig. 1] :
    • Explication : Elles visent à modéliser les variants pathogènes des patients in vivo (organismes modèles comme la drosophile, le ver nématode, le poisson zèbre, la souris) ou in vitro (lignées cellulaires humaines, cellules primaires, iPSCs). Elles incluent également des criblages fonctionnels à haut débit, comme les criblages CRISPR/Cas9.
    • Commentaire : Ces études sont essentielles pour valider la causalité d’un variant putatif et élucider les mécanismes moléculaires sous-jacents de la maladie rare. Elles peuvent aider à découvrir de nouveaux gènes-maladies, à comprendre comment différents variants contribuent à une maladie, et à explorer des cibles thérapeutiques potentielles.
  • Mise en Correspondance des Cas (Case Matching) [Fig. 1] :
    • Explication : Des plateformes comme Matchmaker Exchange (MME) ont été développées pour connecter des cas non apparentés présentant des phénotypes similaires et/ou des mutations génétiques similaires.
    • Commentaire : Cette approche est cruciale pour les maladies rares, où la rareté des patients rend difficile l’établissement de la cause moléculaire et l’analyse statistique. Le MME a facilité l’identification de cas avec des profils phénotypiques et génotypiques similaires, conduisant à la découverte de nouvelles associations gène-maladie.
  • Réanalyse Automatisée (Automated Re-analysis) [Fig. 1] :
    • Explication : Ce processus implique la réanalyse périodique des données de séquençage avec les pipelines analytiques les plus récents, les bases de données de fréquences de variants, la littérature scientifique et les mises à jour du phénotype du patient.
    • Commentaire : La réévaluation des données génomiques peut augmenter le rendement diagnostique de manière significative (5 à 26 % pour l’ES et 4 à 11 % pour le GS). C’est essentiel car de nouvelles découvertes de gènes-maladies sont faites à un rythme accéléré, et les VUS et les variants intronic peuvent être résolus avec le temps.

Conclusion de la Figure 1 : La Figure 1, accompagnée de son texte explicatif, promeut une approche multidisciplinaire et intégrée du diagnostic des maladies rares. Elle met en évidence que, bien que le séquençage de l’exome ait été révolutionnaire, il ne suffit pas pour tous les patients. Les technologies “au-delà de l’exome”, qu’elles soient axées sur le génome (GS, LRS, pan-génome) ou sur des lectures fonctionnelles (transcriptomique, métabolomique, protéomique, méthylation), combinées à des études fonctionnelles et des outils computationnels (mise en correspondance des cas, réanalyse), sont essentielles pour combler le fossé diagnostique. Le choix des technologies doit être guidé par le phénotype du patient et par la nécessité de valider la causalité des variants. L’objectif ultime est d’améliorer la compréhension des mécanismes moléculaires de la maladie et d’ouvrir la voie à de nouvelles stratégies thérapeutiques.

La Figure 2 de l’article “A guide for the diagnosis of rare and undiagnosed disease: beyond the exome” est une illustration clé qui synthétise les défis majeurs rencontrés dans l’identification des variants causaux lors du séquençage de l’exome (ES) ou du génome (GS), ainsi que les solutions et approches alternatives proposées pour les surmonter. L’objectif global de cette revue est d’offrir un guide aux cliniciens et chercheurs pour les étapes suivantes lorsque le séquençage de l’exome ne révèle rien.

Voici une explication et un commentaire détaillés de cette figure :

Titre de la Figure 2 : “Défis dans l’identification des variants causaux à l’aide du séquençage de l’exome ou du génome et les solutions potentielles et approches alternatives”.

La figure organise les défis en deux catégories principales : l’Interprétation et la Détection, et présente des solutions pour chacune.

I. Défis identifiés par la Figure 2

La Figure 2 met en évidence les lacunes des approches actuelles de séquençage (ES et GS) qui expliquent pourquoi un grand nombre de patients atteints de maladies rares restent non diagnostiqués, malgré le fait que ces technologies aient permis des diagnostics pour une proportion considérable (25-35%) de patients.

  1. Défis d’Interprétation :
    • Variants de signification inconnue (VUS) dans un gène de maladie connu : Le séquençage de l’exome (ES) et du génome (GS) génèrent de nombreux VUS, dont beaucoup ne peuvent être écartés facilement, ce qui représente un fardeau important pour les patients et le système de santé. L’interprétation des variants reste difficile.
    • Nouveau gène de maladie : La découverte de nouveaux gènes est rapide. L’identification de ces nouveaux gènes-maladies est un défi persistant.
    • Variant non codant : L’interprétation et la priorisation des variants non codants restent un défi majeur. L’annotation des variants mononucléotidiques (SNV) dans les régions introniques profondes et intergéniques est extrêmement limitée, rendant leur évaluation quasi impossible.
  1. Défis de Détection :
    • Second variant manquant dans un trouble récessif : Pour les maladies récessives, il est fréquent qu’un seul variant pathogène soit identifié par ES/GS, laissant le second variant manquant.
    • Variant causal situé dans une région difficile à séquencer :
      • Limitations de l’ES et du GS à courtes lectures (SRS) : L’ES présente une couverture non uniforme, en particulier dans les premiers exons, les régions riches en GC/AT et les régions de faible complexité, et est limitée par la spécificité des sondes de capture. Le succès de l’ES dans la détection des variants structurels (SV), des répétitions en tandem (STR) et des variants pathogènes dans les régions introniques profondes est modeste. Bien que le GS puisse détecter les SV, les STR et les variants introniques, le séquençage à courtes lectures (SRS) a un succès limité dans la détection des SV complexes et des longues répétitions en tandem, ou de celles situées dans des régions hautement répétitives et/ou riches en GC. Les lectures courtes (typiquement 100-300 pb) rendent l’alignement difficile dans les régions répétitives du génome de référence, empêchant une prédiction fiable des variants larges et des longues répétitions en tandem. La détection précise des SV, y compris les variations du nombre de copies (CNV), à partir des données de GS à courtes lectures, reste un défi en raison d’un nombre élevé de faux positifs et du manque de grandes cohortes de contrôle.
    • Variant causal masqué par des biais dans le génome de référence et les ensembles de données génomiques : Le génome de référence humain actuel est une séquence consensuelle linéaire haploïde dérivée d’un très petit nombre d’individus, ce qui lui fait défaut en diversité génétique. L’alignement des lectures sur ce génome de référence peut entraîner des désalignements ou des lectures non alignées, en particulier dans les régions hautement polymorphes, répétitives ou chevauchant les points de rupture des SV. Cela crée un “biais de référence”.
II. Solutions potentielles et approches alternatives

La Figure 2 propose diverses approches pour combler ces lacunes diagnostiques. Beaucoup de ces technologies se complètent mutuellement.

  1. Pour les défis d’Interprétation :
    • Technologies Omics complémentaires (RNA-seq, Métabolomique, Protéomique, Profilage de méthylation) :
      • Transcriptomique (RNA-seq) : Complémenter le séquençage de l’ADN avec la transcriptomique peut aider à prioriser les variants potentiellement pathogènes. Le RNA-seq peut classifier un VUS, fournir des informations sur le mécanisme de la maladie, ou identifier un variant dans le second allèle d’une maladie récessive. Il peut détecter les valeurs aberrantes d’expression (gènes exprimés à des niveaux extrêmement élevés ou bas), l’épissage aberrant, l’expression allélique spécifique (ASE), et les variants structurels transcriptomiques (TSV) comme les fusions de gènes. Le séquençage de l’ARN à longues lectures (LRS) peut améliorer l’analyse de l’épissage alternatif et des fusions de gènes, et permettre l’identification de l’expression allélique spécifique grâce au phasage de l’haplotype.
      • Profilage de méthylation (Épigénomique) : À considérer en cas de suspicion de trouble d’empreinte génomique ou de VUS dans un gène de méthylation connu. Les techniques comme le séquençage bisulfite du génome entier (WGBS), le séquençage bisulfite à représentation réduite (RRBS) et le séquençage à longues lectures (LRS) peuvent évaluer la méthylation de l’ADN à l’échelle du génome. Des modèles d’apprentissage automatique basés sur les données de méthylation de l’ADN peuvent prédire certains syndromes Mendéliens. EpiSign est un test clinique.
      • Métabolomique : Des études fonctionnelles en métabolomique ont permis de découvrir des mécanismes de maladies métaboliques et d’améliorer leur prise en charge. Les changements métaboliques, même subtils, peuvent inciter à la réanalyse des données d’exome.
      • Protéomique : Révèle les altérations dans la synthèse, la stabilité, la dégradation et la signalisation des protéines. L’analyse protéomique peut guider les diagnostics génétiques ciblés et révéler des mutations génomiques sous-jacentes manquées par l’ES, comme des variants dans des gènes hautement homologues à des pseudogènes.
    • Études fonctionnelles : Essentielles pour renforcer la causalité d’un variant putatif et comprendre le mécanisme moléculaire de la maladie. Cela peut être réalisé in vivo (modèles animaux comme la drosophile, le ver, le poisson-zèbre, la souris) ou in vitro (lignées cellulaires, cellules primaires, cellules souches pluripotentes induites (iPSC)). Les criblages CRISPR/Cas9 sont des plateformes puissantes pour évaluer l’impact des variants sur des milliers de gènes en une seule expérience.
    • Réanalyse automatisée : Il est crucial de réanalyser périodiquement les données de séquençage avec les pipelines analytiques, les bases de données de fréquence des variants et la littérature les plus récents. Cela peut augmenter le rendement diagnostique (5-26% pour l’ES, 4-11% pour le GS). Des outils comme Exomiser, Amelie et Xrare aident à prioriser les gènes candidats en fonction de l’appariement gène-phénotype. Des outils comme ClinPhen et CLiX extraient les phénotypes pertinents des dossiers cliniques pour une priorisation automatisée.
    • Appariement de cas (Case matching) : Des plateformes comme Matchmaker Exchange (MME) permettent d’identifier des cas non apparentés avec des phénotypes similaires et des variants potentiellement pathogènes dans le même gène candidat. L’apprentissage automatique peut être appliqué aux images faciales ou aux dossiers de santé électroniques (DSE) pour identifier des patients ayant des trajectoires de maladie similaires.
  1. Pour les défis de Détection :
    • Séquençage du génome (GS) : Le GS peut identifier les variants structurels (SV) canoniques et complexes, les répétitions en tandem, les variants introniques et les variants codants qui ne sont pas précisément capturés par l’ES. Il a permis d’identifier les variants causaux dans de nombreux cas non diagnostiqués par l’ES.
    • Séquençage à longues lectures (LRS) : Les lectures plus longues (typiquement 10-60 kb, certaines jusqu’à 2 Mb) du LRS améliorent l’alignement au génome de référence et la détection des SV, en particulier dans les éléments répétitifs ou les duplications segmentaires, et les régions à forte teneur en GC. Le LRS permet également le phasage de l’haplotype, crucial pour identifier les mutations hétérozygotes composites et de novo. Il fournit des détails précis sur les points de rupture des mutations. Le LRS permet la détection directe des nucléotides méthylés, évitant les étapes de conversion au bisulfite. En résumé, le LRS peut être un test unique pour détecter les SNV, INDEL, SV simples et complexes, répétitions en tandem et changements de méthylation, et fournir des informations sur le phasage. Le séquençage ciblé à longues lectures peut détecter des SV complexes et des répétitions en tandem dans les gènes candidats.
    • Génome de référence pangénomique : Le concept de pangénome, représentant une collection de toutes les séquences génomiques d’une population, vise à surmonter les limitations du génome de référence linéaire haploïde actuel. L’alignement des lectures sur un pangénome réduit le biais de référence, améliorant la précision de l’alignement et l’appel des variants. Il est particulièrement bénéfique pour l’analyse génomique des patients d’ethnies sous-représentées.
    • Cartographie optique du génome (OGM) : L’OGM vise à détecter les SV (de 500 pb à des chromosomes entiers), y compris les délétions, insertions, expansions de répétitions, duplications en tandem, translocations et aneuploïdies. Ce n’est pas une technique de séquençage, mais une procédure de marquage de l’ADN suivie d’une imagerie à haute résolution. L’OGM a une résolution supérieure aux microarrays et caryotypes traditionnels et peut détecter un faible niveau de mosaïcisme.
III. Commentaire sur la Figure 2 et ses implications

La Figure 2 est un aperçu stratégique de l’évolution du diagnostic des maladies rares.

  • Necessité du “Au-delà de l’exome” : L’article insiste sur l’importance d’aller au-delà du séquençage de l’exome, car une proportion significative de patients restent sans diagnostic malgré l’utilisation de cette technologie. Les maladies rares affectent des millions de personnes et causent souvent des maladies chroniques, des handicaps et des décès prématurés. Un diagnostic précis est crucial pour une meilleure prise en charge et l’identification de thérapies potentielles.
  • Approche intégrée et complémentaire : La figure souligne que les technologies proposées sont souvent complémentaires et devraient être analysées de manière intégrée. L’intégration de données provenant de diverses approches “omiques” (génomique, transcriptomique, épigénomique, protéomique, métabolomique) est cruciale pour l’interprétation des variants et la découverte de nouveaux mécanismes de maladie.
  • Combler le “gap diagnostique” : L’objectif de ces stratégies est de combler le fossé diagnostique pour les patients non diagnostiqués et d’améliorer le rendement diagnostique. Le délai moyen pour un diagnostic précis est de 4 à 5 ans, et peut dépasser une décennie.
  • Défis d’adoption clinique : L’article reconnaît que l’adoption clinique de ces technologies émergentes est confrontée à des obstacles, notamment leur coût, le manque de cohortes de contrôle pour les populations diverses, la nécessité d’une expertise spécialisée, les exigences de validation et les données économiques/de services de santé. Le coût du LRS est désormais comparable à celui du SRS, mais certaines plateformes restent chères.
  • Vision d’avenir : La vision est celle d’une intégration harmonieuse des analyses multi-omiques, d’un partage accru des données (via des plateformes comme Matchmaker Exchange), et d’une réanalyse automatisée pour rapprocher la recherche et la clinique. L’amélioration continue de la précision et de l’accessibilité économique de ces technologies est anticipée pour permettre leur utilisation clinique courante.

Fiche-SynthÈSE

  • Les maladies rares touchent des millions de personnes dans le monde (30 millions aux États-Unis, 300-400 millions mondialement) et ont souvent une origine génétique (80%).
  • Elles entraînent une maladie chronique, un handicap et un décès prématuré, avec un délai de diagnostic moyen de 4 à 5 ans, voire plus d’une décennie pour certains.
  • Les techniques de diagnostic traditionnelles sont souvent insuffisantes, laissant de nombreux patients sans diagnostic.

Technologies de séquençage actuelles et leurs limites :

  • Le séquençage d’exome (ES) et les panels de gènes ont permis de diagnostiquer 25-35% des patients, offrant des résultats exploitables.
  • L’ES se concentre sur les régions codantes (~2% du génome) mais présente une couverture non uniforme et une détection limitée des variants structurels (SVs) et des répétitions en tandem (STRs).
  • Le séquençage du génome entier à lecture courte (SR GS) offre une couverture plus homogène que l’ES et une meilleure détection des SVs et STRs.
  • Cependant, le SR GS a des difficultés dans les régions très répétitives ou à faible profondeur de lecture, et les bases de données génomiques actuelles sont biaisées par l’ascendance européenne, compliquant l’interprétation pour les populations sous-représentées.
  • Les Variants de Signification Inconnue (VUS) représentent un défi majeur en raison du manque d’informations sur les régions non codantes.
  • Les coûts élevés des technologies avancées ne sont souvent pas couverts par les assurances maladie.
  • Les méthodes traditionnelles comme le caryotypage et les puces à ADN restent utiles pour la détection de certaines anomalies chromosomiques et des variations du nombre de copies (CNVs).

Technologies émergentes pour le diagnostic :

  • Le séquençage à lecture longue (LRS) permet de mieux identifier les SVs et STRs complexes, de réaliser l’haplotypage et de détecter directement les modifications de méthylation de l’ADN, même dans des régions difficiles d’accès pour les lectures courtes.
  • La cartographie optique du génome (OGM) est une approche non-séquençante qui détecte les SVs de grande taille (500 bp à des chromosomes entiers) et peut identifier le mosaïcisme de bas niveau.
  • L’utilisation d’une référence pan-génome réduit le biais de référence et améliore la précision de l’alignement et de l’appel des variants, en particulier pour les populations diverses.

Approches “omiques” complémentaires pour l’interprétation des variants :

  • La transcriptomique (RNA-seq) est un outil puissant pour identifier les anomalies d’expression génique, d’épissage aberrant (même pour des variants intronicques ou silencieux), l’expression allélique spécifique, et les fusions géniques, aidant à classer les VUS. L’utilisation du tissu affecté est recommandée mais le sang, les fibroblastes et les cellules souches pluripotentes induites (iPSCs) sont des alternatives.
  • Le profilage de la méthylation permet d’identifier des épisignatures spécifiques à certaines maladies rares (ex: syndrome CHARGE, Kabuki, Sotos), qui peuvent aider à diagnostiquer et à différencier des syndromes avec un chevauchement phénotypique.
  • La métabolomique et la lipidomique fournissent des informations fonctionnelles sur les molécules et les voies métaboliques, utiles pour les erreurs innées du métabolisme et pour reclasser les VUS.
  • La protéomique étudie les protéines pour révéler les altérations dans leur synthèse, stabilité et fonction, offrant des indices sur les mécanismes des maladies.
  • Les essais multiplexés de l’effet des variants (MAVE) visent à cartographier l’effet fonctionnel de toutes les mutations possibles dans un gène donné, prometteur pour l’interprétation des VUS.

Autres stratégies pour améliorer le diagnostic :

  • Les études fonctionnelles (modèles in vivo et in vitro, criblages CRISPR/Cas9) aident à valider les variants, à comprendre les mécanismes moléculaires et à explorer des cibles thérapeutiques.
  • L’appariement de cas (Matchmaker Exchange) facilite la connexion de patients non apparentés avec des phénotypes et des variants génétiques similaires, accélérant la découverte de nouveaux gènes-maladies.
  • La réanalyse automatisée et périodique des données génomiques avec les dernières bases de données et pipelines peut augmenter le rendement diagnostique (5-26% pour l’ES, 4-11% pour le GS).

Défis et perspectives d’avenir :

  • L’intégration de multiples approches “omiques” (multi-omique) en parallèle est le futur, mais nécessite le développement d’algorithmes d’IA et une optimisation des coûts.
  • Le partage de données est crucial pour surmonter le manque de cohortes de contrôle et d’expertise, mais il est entravé par des défis techniques et réglementaires.
  • L’objectif est de combler le fossé entre la recherche et la clinique pour atteindre un rendement diagnostique proche de 100% et une médecine de précision pour tous les patients atteints de maladies rares.

Podcast

Plan de cours
Nouvelles Perspectives Diagnostiques pour les Maladies Génétiques Rares

  • Qu’est-ce qu’une Maladie Rare ? (5 min)
    • Définition et impact mondial : Les maladies rares touchent plus de 400 millions de personnes dans le monde, soit environ 1 personne sur 10 aux États-Unis.
    • Caractéristiques : Environ 80 % des maladies rares ont une origine génétique, et 70 % débutent pendant l’enfance, dont près de 30 % des enfants ne survivent pas au-delà de leur cinquième anniversaire. Elles entraînent souvent des maladies chroniques, des incapacités et un décès prématuré, et représentent un coût significatif pour les systèmes de santé.
    • Importance du diagnostic : Un diagnostic précis peut améliorer la gestion de la maladie, permettre l’identification de thérapies potentielles, éviter des traitements inutiles aux effets secondaires graves, et fournir des informations cruciales pour la planification familiale et le conseil génétique.
  • L'”Odyssée Diagnostique” Actuelle (5 min)
    • Situation actuelle : Un grand nombre de patients atteints de maladies rares restent non diagnostiqués pendant des années ; le délai moyen pour un diagnostic précis est d’environ 4 à 5 ans, pouvant parfois dépasser une décennie.
    • Approches traditionnelles : Elles s’appuient fortement sur des approches heuristiques, combinant l’expérience clinique avec la littérature médicale.
    • Limites de la Séquençage de Nouvelle Génération (NGS) actuelle : Bien que le séquençage d’exome (ES) ait permis d’identifier la cause moléculaire chez 25 à 35 % des patients non diagnostiqués, une proportion importante (plus de la moitié) reste sans diagnostic. Les limites incluent une couverture incomplète de certaines régions génomiques, une détection limitée des variants structuraux (SVs) et des répétitions en tandem courtes (STRs), et des défis dans l’interprétation des variants de signification inconnue (VUS).
  • La Nécessité de Nouvelles Perspectives (5 min)
    • Combler le fossé diagnostique : Des technologies émergentes et des approches intégrées sont cruciales pour aller au-delà de l’exome et améliorer le diagnostic.
    • Objectif : Maximiser le rendement diagnostique et élucider les mécanismes moléculaires des maladies.
  • Séquençage du Génome Entier (GS) (10 min)
    • Avantages par rapport à l’ES : Le GS capture les régions codantes, les régions non traduites (UTRs), les jonctions intron-exon, et les régions non codantes. Il offre une couverture plus uniforme du génome, une meilleure détection des variants du nombre de copies (CNVs), et la capacité d’identifier des SVs complexes et des STRs qui sont souvent manqués par l’ES.
    • Applications cliniques : Le GS a permis d’identifier des variants causatifs dans de nombreux cas non diagnostiqués après un ES non concluant.
    • Limites du GS à lecture courte : Malgré ses avantages, le GS à lecture courte a une difficulté limitée à détecter les SVs complexes et les STRs longs ou situés dans des régions hautement répétitives et riches en GC. Sa profondeur de lecture typique (~30x) est inférieure à celle de l’ES (~100x), ce qui peut rendre plus difficile la détection des variants mosaïques ou dans des régions difficiles à évaluer.
  • Séquençage à Longue Lecture (LRS) (10 min)
    • Mécanisme : Le LRS génère des lectures beaucoup plus longues (typiquement 10 à 60 kb, et jusqu’à 2 Mb) par rapport aux lectures courtes (100-300 bp).
    • Avantages Clés : Les lectures plus longues permettent un alignement amélioré sur le génome de référence, en particulier dans les régions répétitives et riches en GC. Il est supérieur pour la détection des SVs, l’haplotypage (attribuer les variants aux chromosomes parentaux), et la détection directe des modifications de méthylation de l’ADN sans conversion au bisulfite. Il peut identifier des répétitions en tandem expansions que les méthodes à lecture courte manquent.
    • Plateformes et coût : Les principales plateformes sont le séquençage en temps réel à molécule unique (SMRT) de Pacific Biosciences et le séquençage basé sur les nanopores d’Oxford Nanopore Technologies (ONT). Le coût de l’ONT est désormais comparable à celui du séquençage à lecture courte, bien que Pacific Biosciences reste relativement cher. Les approches hybrides (par exemple, LRS à faible couverture combiné à SRS à haute couverture) sont des solutions intermédiaires attrayantes.
  • Cartographie Optique du Génome (OGM) (5 min)
    • Mécanisme : L’OGM n’est pas une technique de séquençage, mais une méthode d’étiquetage de l’ADN suivie d’une imagerie à haute résolution. Elle est conçue pour détecter les SVs, des plus petites (500 bp) aux chromosomes entiers, incluant les délétions, insertions, expansions de répétitions, duplications en tandem, translocations et inversions, ainsi que les aneuploïdies.
    • Bénéfices : L’OGM offre une meilleure détection des SVs que le GS à lecture courte et une résolution plus élevée que les microréseaux et le caryotypage. Elle vise à remplacer les techniques cytogénétiques traditionnelles. Elle peut également détecter un faible niveau de mosaïcisme.
    • Limites : Nécessite une méthode d’extraction d’ADN non standardisée pour préserver les très longs fragments. Elle a des difficultés à détecter les triploïdies, les polyploïdies d’ordre supérieur, et certaines translocations (comme les translocations robertsoniennes) qui impliquent le centromère non couvert par les cartes OGM.
  • Référence Pan-Génome (5 min)
    • Problème du biais de référence : Le génome de référence humain actuel est une séquence linéaire haploïde dérivée d’un très petit nombre d’individus, ce qui manque de diversité génétique et peut entraîner un mauvais alignement des lectures, en particulier dans les régions très polymorphes ou répétitives, ou celles couvrant des points de cassure de variants structuraux.
    • Concept : Un pan-génome représente une collection de toutes les séquences génomiques d’une population ou d’une espèce, intégrant de nombreux haplotypes alternatifs à chaque locus.
    • Impact : L’alignement des lectures sur un pan-génome réduit le biais de référence, améliorant la précision de l’alignement et de l’appel des variants. Cette approche devrait bénéficier au diagnostic des patients ultra-rares, en particulier ceux issus de populations sous-représentées, en fournissant une détection des variants plus précise.
  • Transcriptomique (Séquençage ARN) (10 min)
    • Principe : Le séquençage ARN (RNA-seq) analyse tous les ARN messagers (ARNm) dans un échantillon pour évaluer les niveaux d’expression génique et l’épissage.
    • Utilité diagnostique : Le RNA-seq aide à hiérarchiser les VUS, à identifier les seconds variants dans les maladies récessives, à détecter l’épissage aberrant (même à partir de variants introniques profonds), l’expression allèle-spécifique, et les variants structuraux transcriptomiques (par exemple, les fusions géniques).
    • Défis : La disponibilité des tissus pertinents (le cerveau pour les maladies neurologiques n’est souvent pas accessible) et le manque de cohortes de contrôle complètes (appariées par âge et sexe) constituent des défis majeurs.
    • Transcriptomique avancée : Le séquençage ARN à longue lecture permet la détermination de la séquence des transcrits pleine longueur et l’analyse des isoformes d’épissage alternatives. Le séquençage ARN unicellulaire (scRNA-seq) mesure l’expression des gènes au sein de chaque cellule, permettant la découverte de nouveaux types de cellules et l’élucidation des mécanismes de la maladie.
  • Épigénomique (Profilage de Méthylation) (7 min)
    • Rôle : Les modifications épigénétiques, telles que la méthylation de l’ADN, peuvent avoir des implications importantes dans les maladies rares. Le profilage de la méthylation est particulièrement pertinent en cas de suspicion de troubles de l’empreinte génomique ou de VUS dans des gènes de méthylation connus.
    • Épi-signatures : Il s’agit de combinaisons uniques de modifications de la méthylation de l’ADN sur plusieurs loci du génome, spécifiques à différents syndromes génétiques.
    • Application clinique : Des modèles d’apprentissage automatique (par exemple, EpiSign) utilisant des données de méthylation de l’ADN à l’échelle du génome peuvent prédire des syndromes mendéliens à partir d’échantillons sanguins, et aider à classer les VUS. Par exemple, cette approche a été utilisée pour classer les syndromes de CHARGE et de Kabuki et les distinguer l’un de l’autre.
    • Compréhension mécanistique : L’analyse des cibles de méthylation de l’ADN peut révéler des voies moléculaires communes (par exemple, la régulation de HOXA5 dans les syndromes de CHARGE et de Kabuki).
  • Métabolomique et Lipidomique (6 min)
    • Principe : Ces dosages fournissent des lectures fonctionnelles des petites molécules (métabolome) et des lipides (lipidome) pour détecter l’accumulation ou la carence causées par des erreurs innées du métabolisme.
    • Utilité : Elles peuvent confirmer un diagnostic de maladie rare, orienter les tests ADN, identifier des biomarqueurs et surveiller la progression de la maladie. L’intégration de la métabolomique avec le séquençage d’exome peut augmenter le rendement diagnostique.
    • Ciblé vs. non ciblé : Les deux approches sont utilisées en fonction du scénario clinique.
    • Défis : Le métabolome est très fluide et influencé par des facteurs tels que le régime alimentaire et les médicaments. La lipidomique est compliquée par le degré élevé d’isomérie des structures lipidiques. Le manque de cohortes de contrôle robustes est également un défi.
  • Protéomique (5 min)
    • Principe : La protéomique est l’étude à grande échelle du complément des protéines dans un échantillon. Elle peut révéler des altérations dans la synthèse, la stabilité, la dégradation et la signalisation des protéines.
    • Utilité : La protéomique a permis de découvrir des mutations génomiques qui avaient été manquées par l’ES en raison de ses limitations de séquençage. Elle offre également une compréhension mécanistique de l’étiologie moléculaire des maladies.
    • Statut actuel : La protéomique a un débit inférieur à celui d’autres techniques “omiques”, et le volume de données pour l’analyse non ciblée présente des défis.
  • Études Fonctionnelles et MAVE (2 min)
    • Modèles in vivo et in vitro : Des systèmes modèles tels que les drosophiles, les poissons-zèbres, les souris, et des modèles cellulaires (lignées cellulaires, cellules souches pluripotentes induites (iPSCs)) sont utilisés pour valider les variants candidats et élucider les mécanismes moléculaires sous-jacents.
    • Tests fonctionnels multiplexés des effets des variants (MAVE) : Ces méthodes combinent la mutagenèse saturante avec des tests multiplexés pour étudier les effets des variants. Elles sont essentielles pour résoudre les VUS en produisant des cartes d’effets des variants.
  • Méthodes Computationnelles et Réanalyse Automatisée (7 min)
    • Appariement de cas (Case Matching) : Des plateformes comme Matchmaker Exchange (MME) connectent des patients présentant des phénotypes similaires et des gènes candidats disruptés à l’échelle mondiale, accélérant la découverte de gènes.
    • Réanalyse automatisée : La réévaluation périodique des données de séquençage avec les pipelines analytiques, les bases de données et la littérature les plus récents, ainsi que les mises à jour du phénotype du patient, peut considérablement augmenter le rendement diagnostique (par exemple, 5 à 26 % pour la réanalyse de l’ES et 4 à 11 % pour le GS).
    • Accélération : L’utilisation du cloud computing et de matériels spécialisés comme DRAGEN (Dynamic Read Analysis for Genomics) accélère l’exécution des pipelines génomiques, permettant des diagnostics rapides, même pour les enfants gravement malades en unité de soins intensifs.
    • Intégration du phénotype : Des outils comme ClinPhen et CLiX peuvent extraire des phénotypes pertinents des notes cliniques ou des dossiers de santé électroniques (DSE) et les convertir en termes d’ontologie du phénotype humain (HPO), ce qui facilite la priorisation des variants basée sur le phénotype.
  • Surmonter les Défis et Perspectives Futures (8 min)
    • Principaux obstacles : Le coût reste un défi majeur, car de nombreuses technologies mentionnées sont basées sur la recherche et ne sont pas encore disponibles cliniquement ou couvertes par les assurances maladie. Le biais lié à l’ascendance dans les bases de données génomiques (majoritairement européennes) rend l’interprétation difficile pour les populations sous-représentées. Le manque de cohortes de contrôle adéquates pour les données omiques est également un problème.
    • Référence Pan-Génome : Son utilisation est cruciale pour améliorer la précision diagnostique pour les populations sous-représentées en réduisant le biais de référence lors de l’alignement et de l’appel des variants.
    • Approches multi-omiques intégrées : Le futur implique de passer d’analyses séquentielles coordonnées à des pipelines véritablement intégrés, potentiellement avec l’aide de l’intelligence artificielle (IA), pour maximiser la puissance diagnostique.
    • Impératif du partage de données : Le partage mondial de données génomiques et phénotypiques (par exemple, via ClinVar, DECIPHER, MME) est essentiel pour la découverte de nouveaux gènes, la résolution des VUS et l’amélioration de la concordance des classifications. Il est estimé que plus de 60 millions de personnes auront subi un séquençage d’exome ou de génome d’ici 2025.
    • Réduire l’écart recherche-clinique : Il est nécessaire d’élaborer des lignes directrices de bonnes pratiques et d’établir des collaborations mondiales pour traduire les avancées de la recherche en soins cliniques, en assurant un accès équitable au diagnostic pour tous les patients.