CM6 : IA et Génétique : Repliement Structural des Protéines – Notes de cours

Rappels issus des annales d’examen

  • Série de QCM (Contrôles continus 2021-2023) présentés comme exemples d’évaluation
    • Protéines & structures :
    • PDB stocke les structures 3D de protéines ✓
    • Structures 3D en base de données majoritairement obtenues à partir de protéines exprimées par E.~coli ✓
    • Hélices \alpha et feuillets \beta = structures secondaires (≠ tertiaires) ✗
    • Prédiction ab initio seule ne suffit généralement pas à déterminer la structure 3D ✗
    • Variations génomiques :
    • Variants décrits par rapport au génome humain de référence ✓
    • Variations structurales pas forcément équilibrées (peuvent être équilibrées ou non) ✗
    • >50 pb ⇒ variation structurale (SV) ✓
    • Acides aminés = composants principaux des protéines (rappel) ✓
    • Méthodes de détermination de structure :
    • RMN = méthode EXPÉRIMENTALE, pas une simple prédiction informatique (ab initio) ✓
    • Feuillet \beta = structure secondaire pouvant être parallèle / antiparallèle ✓

Introduction : intérêt de la génétique humaine

  • Objectif : identifier les modifications d’ADN et comprendre la relation génotype / phénotype
    • Phénotypes :
    • Bénins : couleur des yeux, groupes sanguins…
    • Pathologiques : maladies monogéniques, prédispositions complexes…
  • Passage du terme « mutation » (connotation pathologique) à « variation » (description neutre)

Variations du génome humain

  • Définition générale : différence entre la séquence d’un individu et le génome de référence de la même espèce
  • Catégories selon la taille :
    • Petites variations (de 1 à 50 pb)
    • SNV : Single Nucleotide Variation
    • Indels : insertions / délétions de petite taille
    • Variations structurales (SV) >50 pb ▸ souvent >1\text{ kb}
    • Déséquilibrées : gains, pertes, éléments mobiles – incluent CNV (Copy Number Variation)
    • Équilibrées : inversions, translocations
    • Expansions de triplets : répétitions instables (ex. syndrome de l’X fragile)
  • Fréquences observées :
    • 4\text{ à }5 \times 10^6 SNV/indels entre deux génomes d’un même sexe
    • 5\text{ à }10^4 variations structurales entre deux génomes d’un même sexe
  • Effets fonctionnels potentiels des SNV/indels :
    • Faux-sens, non-sens, frameshift, indels non frameshift, variants d’épissage (près du site canonique ou deep-intronic), expansions répétées…
  • Processus d’interprétation d’un variant :
    1. Identification du type (SNV, SV, CNV…) et du statut zygotique (homo-, hétéro-, hémi-zygote…)
    2. Annotation bio-informatique : effet moléculaire, fréquence populationnelle (rare ≈ maladie rare)
    3. Classification selon barèmes (ACMG, ClinGen) : classe 1 (-) à classe 5 (+)
    4. Interprétation finale : corrélation avec le phénotype, rédaction du compte-rendu

Structure 3D des protéines : concepts de base

  • 20 acides aminés, propriétés variées (taille, charge, hydrophobicité…)
  • Niveaux d’organisation :
    • Structure primaire : enchaînement linéaire d’AA
    • Structure secondaire : hélice \alpha, feuillet \beta, coudes / boucles de jonction
    • Structure tertiaire : arrangement spatial des motifs secondaires d’une même chaîne
    • Structure quaternaire : assemblage de plusieurs sous-unités tertiaires
  • Détails structuraux :
    • Hélice \alpha : liaisons H intra-chaîne ; orientation résidus i ↔ i+4
    • Feuillet \beta : empilement de brins, parallèle ou antiparallèle

Méthodes EXPÉRIMENTALES de détermination de structure

  • Cristallographie par diffraction des rayons X :
    • Donne cartes de densité électronique ⇒ modèle atomique
    • Long, nécessite cristaux, peut échouer
  • Résonance Magnétique Nucléaire (RMN / NMR)
  • Cryo-microscopie électronique (cryo-EM) :
    • Particulièrement adaptée aux grands complexes supramoléculaires

Bases de données de structures 3D

  • Protein Data Bank (PDB) :
    • Répertoire international de dépôts 3D
    • Biais d’espèces : nombreuses protéines humaines, surcharge d’entrées issues de cristallographie X
    • Croissance lente : détermination expérimentale coûteuse
  • Catalogues de pli (fold) :
    • CATH, SCOP : classification hiérarchique (Famille ▸ Super-famille ▸ Fold)
    • Famille : >30\% d’identité (parfois moins, ex. globines à 15\%)
    • Super-famille : similitude fonctionnelle / structurale malgré faible identité
    • Fold : topologie similaire, connexions conservées

Modélisation ab initio / de novo

  • Principe énoncé par Christian Anfinsen (Prix Nobel 1972) : la séquence primaire contient toute l’information nécessaire au repliement
  • Projets historiques de calcul distribué :
    • Folding@Home, Rosetta@Home, Human Proteome Folding Project
  • Évaluation : concours biennal CASP (Critical Assessment of protein Structure Prediction)
    • Donne des cibles « aveugles », note la précision
    • Amélioration continue des scores, surtout dans les catégories moyennes & difficiles

IA, Machine Learning & Deep Learning

  • Machine learning « classique » :
    • Supervision humaine, features explicites, algorithmes : forêts aléatoires, SVM, régressions…
  • Deep learning :
    • Réseaux neuronaux profonds, données non structurées, apprentissage de représentations internes

AlphaFold 1 & 2 (DeepMind)

  • Révolution de la prédiction de novo des structures 3D
    • Code & modèles open source : https://alphafold.ebi.ac.uk/
  • Architecture :
    • Réseau neuronal entraîné à prédire distances entre paires d’AA et angles de liaisons
    • Entrées : Multiple Sequence Alignment (MSA) + recherche d’analogues structuraux dans bases
    • Sortie : modèle 3D + score de confiance (bleu = élevé, jaune/rouge = faible)
  • Exemples :
    • PABPCL1 (humain) : zones fiables / non structurées visibles en coloration pLDDT
    • BBS1 : superposition prédiction vs structure cristallo → concordance démonstrative

Performance & impact

  • CASP14 (2020) :
    • AlphaFold 2 atteint 90\% des cibles avec score de confiance >80
    • Organisateurs : « The protein folding problem had been solved »
  • Limites :
    • Régions intrinsèquement désordonnées, complexes multi-états, modifications post-traductionnelles
  • Intérêts :
    • Générer plusieurs conformations hypothétiques
    • Accélérer l’étude d’enzymes en condition active / inactive, interfaces protéine-partenaire
  • Mise à jour (août 2022) :
    • >2\times10^8 structures couvrant plantes, bactéries, animaux, virus…

Conclusions

  • L’IA est désormais un outil majeur en biologie / génétique :
    • Besoin critique de « big data » pour l’entraînement
    • Succès spectaculaires (AlphaFold) mais zones d’ombre subsistent (dynamique, désordre, PTM)
  • Concernant le repliement des protéines :
    • Combinaison d’expérimental (X-ray, RMN, cryo-EM) et d’IA pour cartographier rapidement l’espace structural
    • Possibles retombées pratiques : design de médicaments, compréhension des maladies de repliement, ingénierie de protéines sur mesure