CM6 : IA et Génétique : Repliement Structural des Protéines – Notes de cours
Rappels issus des annales d’examen
- Série de QCM (Contrôles continus 2021-2023) présentés comme exemples d’évaluation
- Protéines & structures :
- PDB stocke les structures 3D de protéines ✓
- Structures 3D en base de données majoritairement obtenues à partir de protéines exprimées par E.~coli ✓
- Hélices \alpha et feuillets \beta = structures secondaires (≠ tertiaires) ✗
- Prédiction ab initio seule ne suffit généralement pas à déterminer la structure 3D ✗
- Variations génomiques :
- Variants décrits par rapport au génome humain de référence ✓
- Variations structurales pas forcément équilibrées (peuvent être équilibrées ou non) ✗
- >50 pb ⇒ variation structurale (SV) ✓
- Acides aminés = composants principaux des protéines (rappel) ✓
- Méthodes de détermination de structure :
- RMN = méthode EXPÉRIMENTALE, pas une simple prédiction informatique (ab initio) ✓
- Feuillet \beta = structure secondaire pouvant être parallèle / antiparallèle ✓
Introduction : intérêt de la génétique humaine
- Objectif : identifier les modifications d’ADN et comprendre la relation génotype / phénotype
- Phénotypes :
- Bénins : couleur des yeux, groupes sanguins…
- Pathologiques : maladies monogéniques, prédispositions complexes…
- Passage du terme « mutation » (connotation pathologique) à « variation » (description neutre)
Variations du génome humain
- Définition générale : différence entre la séquence d’un individu et le génome de référence de la même espèce
- Catégories selon la taille :
- Petites variations (de 1 à 50 pb)
- SNV : Single Nucleotide Variation
- Indels : insertions / délétions de petite taille
- Variations structurales (SV) >50 pb ▸ souvent >1\text{ kb}
- Déséquilibrées : gains, pertes, éléments mobiles – incluent CNV (Copy Number Variation)
- Équilibrées : inversions, translocations
- Expansions de triplets : répétitions instables (ex. syndrome de l’X fragile)
- Fréquences observées :
- 4\text{ à }5 \times 10^6 SNV/indels entre deux génomes d’un même sexe
- 5\text{ à }10^4 variations structurales entre deux génomes d’un même sexe
- Effets fonctionnels potentiels des SNV/indels :
- Faux-sens, non-sens, frameshift, indels non frameshift, variants d’épissage (près du site canonique ou deep-intronic), expansions répétées…
- Processus d’interprétation d’un variant :
- Identification du type (SNV, SV, CNV…) et du statut zygotique (homo-, hétéro-, hémi-zygote…)
- Annotation bio-informatique : effet moléculaire, fréquence populationnelle (rare ≈ maladie rare)
- Classification selon barèmes (ACMG, ClinGen) : classe 1 (-) à classe 5 (+)
- Interprétation finale : corrélation avec le phénotype, rédaction du compte-rendu
Structure 3D des protéines : concepts de base
- 20 acides aminés, propriétés variées (taille, charge, hydrophobicité…)
- Niveaux d’organisation :
- Structure primaire : enchaînement linéaire d’AA
- Structure secondaire : hélice \alpha, feuillet \beta, coudes / boucles de jonction
- Structure tertiaire : arrangement spatial des motifs secondaires d’une même chaîne
- Structure quaternaire : assemblage de plusieurs sous-unités tertiaires
- Détails structuraux :
- Hélice \alpha : liaisons H intra-chaîne ; orientation résidus i ↔ i+4
- Feuillet \beta : empilement de brins, parallèle ou antiparallèle
Méthodes EXPÉRIMENTALES de détermination de structure
- Cristallographie par diffraction des rayons X :
- Donne cartes de densité électronique ⇒ modèle atomique
- Long, nécessite cristaux, peut échouer
- Résonance Magnétique Nucléaire (RMN / NMR)
- Cryo-microscopie électronique (cryo-EM) :
- Particulièrement adaptée aux grands complexes supramoléculaires
Bases de données de structures 3D
- Protein Data Bank (PDB) :
- Répertoire international de dépôts 3D
- Biais d’espèces : nombreuses protéines humaines, surcharge d’entrées issues de cristallographie X
- Croissance lente : détermination expérimentale coûteuse
- Catalogues de pli (fold) :
- CATH, SCOP : classification hiérarchique (Famille ▸ Super-famille ▸ Fold)
- Famille : >30\% d’identité (parfois moins, ex. globines à 15\%)
- Super-famille : similitude fonctionnelle / structurale malgré faible identité
- Fold : topologie similaire, connexions conservées
Modélisation ab initio / de novo
- Principe énoncé par Christian Anfinsen (Prix Nobel 1972) : la séquence primaire contient toute l’information nécessaire au repliement
- Projets historiques de calcul distribué :
- Folding@Home, Rosetta@Home, Human Proteome Folding Project
- Évaluation : concours biennal CASP (Critical Assessment of protein Structure Prediction)
- Donne des cibles « aveugles », note la précision
- Amélioration continue des scores, surtout dans les catégories moyennes & difficiles
IA, Machine Learning & Deep Learning
- Machine learning « classique » :
- Supervision humaine, features explicites, algorithmes : forêts aléatoires, SVM, régressions…
- Deep learning :
- Réseaux neuronaux profonds, données non structurées, apprentissage de représentations internes
AlphaFold 1 & 2 (DeepMind)
- Révolution de la prédiction de novo des structures 3D
- Code & modèles open source : https://alphafold.ebi.ac.uk/
- Architecture :
- Réseau neuronal entraîné à prédire distances entre paires d’AA et angles de liaisons
- Entrées : Multiple Sequence Alignment (MSA) + recherche d’analogues structuraux dans bases
- Sortie : modèle 3D + score de confiance (bleu = élevé, jaune/rouge = faible)
- Exemples :
- PABPCL1 (humain) : zones fiables / non structurées visibles en coloration pLDDT
- BBS1 : superposition prédiction vs structure cristallo → concordance démonstrative
- CASP14 (2020) :
- AlphaFold 2 atteint 90\% des cibles avec score de confiance >80
- Organisateurs : « The protein folding problem had been solved »
- Limites :
- Régions intrinsèquement désordonnées, complexes multi-états, modifications post-traductionnelles
- Intérêts :
- Générer plusieurs conformations hypothétiques
- Accélérer l’étude d’enzymes en condition active / inactive, interfaces protéine-partenaire
- Mise à jour (août 2022) :
- >2\times10^8 structures couvrant plantes, bactéries, animaux, virus…
Conclusions
- L’IA est désormais un outil majeur en biologie / génétique :
- Besoin critique de « big data » pour l’entraînement
- Succès spectaculaires (AlphaFold) mais zones d’ombre subsistent (dynamique, désordre, PTM)
- Concernant le repliement des protéines :
- Combinaison d’expérimental (X-ray, RMN, cryo-EM) et d’IA pour cartographier rapidement l’espace structural
- Possibles retombées pratiques : design de médicaments, compréhension des maladies de repliement, ingénierie de protéines sur mesure