CM6 : IA et Génétique : Repliement Structural des Protéines – Notes de cours

Objectif : identifier les modifications d’ADN et comprendre la relation génotype / phénotype
- Phénotypes :
- Bénins : couleur des yeux, groupes sanguins…
- Pathologiques : maladies monogéniques, prédispositions complexes…
Passage du terme « mutation » (connotation pathologique) à « variation » (description neutre)

Définition générale : différence entre la séquence d’un individu et le génome de référence de la même espèce
Catégories selon la taille :
- Petites variations (de $1$ à $50$ pb)
- SNV : Single Nucleotide Variation
- Indels : insertions / délétions de petite taille
- Variations structurales (SV) >50 pb ▸ souvent >1\text{ kb}
- Déséquilibrées : gains, pertes, éléments mobiles – incluent CNV (Copy Number Variation)
- Équilibrées : inversions, translocations
- Expansions de triplets : répétitions instables (ex. syndrome de l’X fragile)
Fréquences observées :
- $4\text{ à }5 \times 10^6$ SNV/indels entre deux génomes d’un même sexe
- $5\text{ à }10^4$ variations structurales entre deux génomes d’un même sexe
Effets fonctionnels potentiels des SNV/indels :
- Faux-sens, non-sens, frameshift, indels non frameshift, variants d’épissage (près du site canonique ou deep-intronic), expansions répétées…
Processus d’interprétation d’un variant :
1. Identification du type (SNV, SV, CNV…) et du statut zygotique (homo-, hétéro-, hémi-zygote…)
2. Annotation bio-informatique : effet moléculaire, fréquence populationnelle (rare ≈ maladie rare)
3. Classification selon barèmes (ACMG, ClinGen) : classe 1 (-) à classe 5 (+)
4. Interprétation finale : corrélation avec le phénotype, rédaction du compte-rendu

20 acides aminés, propriétés variées (taille, charge, hydrophobicité…)
Niveaux d’organisation :
- Structure primaire : enchaînement linéaire d’AA
- Structure secondaire : hélice $\alpha$ , feuillet $\beta$ , coudes / boucles de jonction
- Structure tertiaire : arrangement spatial des motifs secondaires d’une même chaîne
- Structure quaternaire : assemblage de plusieurs sous-unités tertiaires
Détails structuraux :
- Hélice $\alpha$ : liaisons H intra-chaîne ; orientation résidus $i$ ↔ $i+4$
- Feuillet $\beta$ : empilement de brins, parallèle ou antiparallèle

Cristallographie par diffraction des rayons X :
- Donne cartes de densité électronique ⇒ modèle atomique
- Long, nécessite cristaux, peut échouer
Résonance Magnétique Nucléaire (RMN / NMR)
Cryo-microscopie électronique (cryo-EM) :
- Particulièrement adaptée aux grands complexes supramoléculaires

Protein Data Bank (PDB) :
- Répertoire international de dépôts 3D
- Biais d’espèces : nombreuses protéines humaines, surcharge d’entrées issues de cristallographie $X$
- Croissance lente : détermination expérimentale coûteuse
Catalogues de pli (fold) :
- CATH, SCOP : classification hiérarchique (Famille ▸ Super-famille ▸ Fold)
- Famille : >30\% d’identité (parfois moins, ex. globines à $15\%$ )
- Super-famille : similitude fonctionnelle / structurale malgré faible identité
- Fold : topologie similaire, connexions conservées

Principe énoncé par Christian Anfinsen (Prix Nobel 1972) : la séquence primaire contient toute l’information nécessaire au repliement
Projets historiques de calcul distribué :
- Folding@Home, Rosetta@Home, Human Proteome Folding Project
Évaluation : concours biennal CASP (Critical Assessment of protein Structure Prediction)
- Donne des cibles « aveugles », note la précision
- Amélioration continue des scores, surtout dans les catégories moyennes & difficiles

Machine learning « classique » :
- Supervision humaine, features explicites, algorithmes : forêts aléatoires, SVM, régressions…
Deep learning :
- Réseaux neuronaux profonds, données non structurées, apprentissage de représentations internes

Révolution de la prédiction de novo des structures 3D
- Code & modèles open source : https://alphafold.ebi.ac.uk/
Architecture :
- Réseau neuronal entraîné à prédire distances entre paires d’AA et angles de liaisons
- Entrées : Multiple Sequence Alignment (MSA) + recherche d’analogues structuraux dans bases
- Sortie : modèle 3D + score de confiance (bleu = élevé, jaune/rouge = faible)
Exemples :
- PABPCL1 (humain) : zones fiables / non structurées visibles en coloration pLDDT
- BBS1 : superposition prédiction vs structure cristallo → concordance démonstrative

CASP14 (2020) :
- AlphaFold 2 atteint $90\%$ des cibles avec score de confiance >80
- Organisateurs : « The protein folding problem had been solved »
Limites :
- Régions intrinsèquement désordonnées, complexes multi-états, modifications post-traductionnelles
Intérêts :
- Générer plusieurs conformations hypothétiques
- Accélérer l’étude d’enzymes en condition active / inactive, interfaces protéine-partenaire
Mise à jour (août 2022) :
- >2\times10^8 structures couvrant plantes, bactéries, animaux, virus…

L’IA est désormais un outil majeur en biologie / génétique :
- Besoin critique de « big data » pour l’entraînement
- Succès spectaculaires (AlphaFold) mais zones d’ombre subsistent (dynamique, désordre, PTM)
Concernant le repliement des protéines :
- Combinaison d’expérimental (X-ray, RMN, cryo-EM) et d’IA pour cartographier rapidement l’espace structural
- Possibles retombées pratiques : design de médicaments, compréhension des maladies de repliement, ingénierie de protéines sur mesure