Conditionnement instrumental et comportements impulsifs – Notes de révision

Conditionnement instrumental : bases conceptuelles

  • Contrairement au conditionnement classique (association S–S), le conditionnement instrumental (ou opérant) repose sur l’association Réponse–Conséquence.
  • Définition : modification de la probabilité de réapparition d’une réponse selon la présence ou l’absence d’un renforçateur contingent à cette réponse.
  • Renforçateur : événement biologiquement pertinent dont la contingence à la réponse modifie la probabilité d’apparition de celle-ci.
    • Renforçateurs primaires : efficaces sans apprentissage préalable (nourriture, eau, choc électrique, stimulation intracérébrale…).
    • Renforçateurs secondaires : acquièrent leur valeur par association antérieure (argent, médailles, signaux sociaux, etc.).
  • Dimensions du renforçateur :
    • Nature : appétitive vs aversive.
    • Modalité : présence (livraison) ou absence (retrait/omission).
  • Tableau classique des contingences :
    • R+R+ : Présence d’un renforçateur appétitif → augmentation de la réponse (« récompense »).
    • PP- : Retrait d’un renforçateur appétitif → diminution de la réponse (« omission »).
    • P+P+ : Présence d’un stimulus aversif → diminution (« punition »).
    • RR- : Retrait d’un stimulus aversif après la réponse → augmentation (« évitement/échappement »).

Dispositifs expérimentaux

  • Labyrinthes de Small (1901) : trajets complexes, abandonnés pour des dispositifs plus simples (couloir linéaire, labyrinthe en T, radial d’Olton).
  • Boîte de Skinner :
    • Étape 1 : familiarisation à la mangeoire (livraison automatique de pastilles).
    • Étape 2 : introduction d’un levier (pédale) → 1 appui = 1 pastille. Shaping possible : renforcement différentiel de successions d’approches du levier.
    • Phénomène de comportements superstitieux : réponses accidentellement associées au renforcement et donc maintenues.
  • Boîtes d’évitement :
    • Évitement actif : réponse (p. ex. traverser un compartiment) supprime ou évite le choc.
    • Évitement passif : tâche sombre/lumineuse ; entrave la tendance naturelle du rongeur à aller dans le compartiment sombre.

Programmes de renforcement

  • Ratio fixe (FR) : ex. FR10 → 10 réponses = 1 renforcement.
  • Ratio variable (VR) : ex. VR5 → renforcement en moyenne toutes les 5 réponses ; induit taux de réponses élevé et constant.
  • Intervalle fixe (FI) : ex. FI10s → première réponse après 10 s est renforcée ; favorise courbes « en échancrure ».
  • DRL (Differential Reinforcement of Low rate) : attente minimale imposée ; compteur remis à 0 si la réponse survient trop tôt.
  • DRH (High rate) : réponse doit survenir avant une échéance courte.
  • Extinction : absence prolongée de renforcement → chute de la réponse ; considérée comme un nouvel apprentissage (épisode initial peut réapparaître).
  • Effet du renforcement partiel : plus grande résistance à l’extinction (illustré chez des étudiants jouant à un jeu monétaire – persistance plus longue quand le gain initial était intermittent).

Nature de l’apprentissage

  • Loi de l’effet (Thorndike) : probabilité de réponse dépend de ses conséquences.
  • Influence de la magnitude : Crespi (1948) – récompense plus importante → acquisition plus rapide ; réduction ultérieure de la récompense entraîne baisse de motivation (pas de « désapprentissage »).
  • Cartes cognitives et apprentissage latent :
    • Tolman & Honzik (1930) : groupe « nourriture à partir du 11ᵉ jour » affiche brusque amélioration → existence de connaissances acquises en l’absence de renforcement.
  • Dévaluation du renforçateur :
    • Colwill & Rescorla (1985) : association R1→Nourriture1, R2→Nourriture2 ; intoxication au LiCl sur Nourriture1 dévalorise sélectivement R1 lors d’un test en extinction → preuve que l’animal encode le lien réponse–conséquence.
  • Discrimination conditionnelle complexe : Rescorla (1991) montre que les animaux peuvent apprendre des configurations SD–R–O (Stimulus discriminatif, Réponse, Outcome).

Conditions de l’apprentissage

  • Contiguïté temporelle :
    • Wolfe (1934) : apprentissage spatial possible avec des délais réponse–renforçateur jusqu’à 20 min20\ \text{min} si des indices contextuels stables sont présents.
    • Perkins (1945) : boîtes de délai interchangeables → apprentissage limité à 2 min\approx2\ \text{min}.
    • Grice (1948) : contrôle des indices proprioceptifs via allées interchangeables.
      → Hypothèse : les stimuli présents dans la « zone de délai » fonctionnent comme renforçateurs secondaires.
  • Contingence : nécessité d’une corrélation réponse–conséquence.
    • Expérience à stimulus lumineux + choc électrique + renf. appétitif : seul le groupe où le choc est contingent au stimulus lumineux apprend l’évitement.
    • Notation probabiliste : P(RfrR1)P(Rfr|R1) vs P(RfrR0)P(Rfr|R0).
    • Hammon (1980) : délivrance d’eau selon p=0,12p=0{,}12 même en l’absence de réponse = « renforcement non-contingent » → affaiblit l’apprentissage.

Impulsivité : concepts et lien avec le conditionnement instrumental

  • Définition générale (Larousse) : tendance spontanée, irrésistible à l’action.
  • Deux dimensions principales :
    1. Déficit de tolérance au délai (choix impulsif) : préférence pour un petit renforcement immédiat vs un plus grand retardé.
    2. Déficit d’inhibition comportementale : difficulté à annuler ou différer une action préparée.
  • Impulsivité et addiction : corrélations observées entre scores d’impulsivité et vulnérabilité à la dépendance.
Choix impulsif – Paradigme à options concurrentes
  • Boîte avec deux pédales : chacune associée à un programme de renforcement différent (p. ex. VI2 min vs VI3 min).
  • Loi d’appariement (Matching Law) :
    R<em>AR</em>A+R<em>B=r</em>Ar<em>A+r</em>B\frac{R<em>A}{R</em>A+R<em>B}=\frac{r</em>A}{r<em>A+r</em>B}
    R<em>AR<em>A = fréquence de réponse A, r</em>Ar</em>A = fréquence de renforcement de A.
  • Quelle « valeur subjective » du renforçateur ?
    • Fonction croissante de la magnitude ; fonction décroissante du délai : V=M1+kDV = \frac{M}{1+kD} (modèle hyperbolique de dépréciation ; kk = sensibilité au délai).
  • Résultat empirique : proportion de choix du gros renforçateur décroît avec l’allongement du délai ; populations diffèrent par leur paramètre kk (impulsivité).
Paradigme d’inhibition
  1. Stop-Signal Task (SST)
    • 75–80 % d’essais « Go » (action rapide requise), 20–25 % d’essais « Stop » (signal surajouté après un Stop-Signal Delay – SSDSSD ; sujet doit inhiber la réponse).
    • Mesures :
      • % d’inhibitions correctes.
      • Temps de réaction « Go ».
      • Stop-Signal Reaction Time (SSRT) : latence estimée de l’inhibition.
    • Effets pharmacologiques :
      • THC : hausse dose-dépendante du SSRT → inhibition plus lente.
      • Amphétamine : à forte dose, réduction du SSRT mais seulement chez les sujets initialement les moins performants (effet « plafond » chez les bons inhibiteurs).
      • Atomoxétine : chez le rat, diminue l’impulsivité sans altérer la vitesse des réponses Go ; action différente de l’amphétamine.
  2. Tâche Go/No-Go
    • 4 issues : Hit (Go correct), Omission (Go non-répondu), Correct Rejection (No-Go correct), False Alarm (commission).
    • Paramètre clé : proportion élevée d’essais Go pour créer un biais d’action.
    • En rongeur : animal doit introduire son museau dans le trou central pour Go, s’abstenir pour No-Go.
    • Doses fortes de certains psychostimulants → baisse des fausses alarmes sans affecter les hits.
  3. 5-Choice Serial Reaction Time Task (5-CSRTT)
    • Mesure de l’attention soutenue + impulsivité (réponses prématurées avant stimulus).
    • Utilisée pour modéliser addictions (alcool, méthamphétamine) et BED.
Bases neurochimiques – rôle de la sérotonine
  • Déplétion aiguë en tryptophane chez le rongeur → chute drastique de 5-HT5\text{-HT} cérébrale → augmentation des réponses impulsives.
  • Suggère qu’un dysfonctionnement du système sérotoninergique participe au déficit d’inhibition.
Étude « Binge drinking »
  • 44 étudiants (18–25 ans) classés en 22 « binge » vs 22 « non-binge » (variables contrôlées : sexe, années d’études).
  • Binge drinkers :
    • Plus d’omissions.
    • Moins de réponses correctes dans des conditions exigeant plus d’attention (double tâche discrimination visuelle + auditive).
    • Effet d’interaction avec le sexe : altération plus marquée chez les hommes.
  • Interprétation : l’abus aigu d’alcool peut détériorer l’allocation de l’attention et les processus inhibiteurs.

Implications pratiques et éthiques

  • Comprendre les mécanismes de choix et d’inhibition permet :
    • D’optimiser les programmes de renforcement en thérapie comportementale.
    • De cibler pharmacologiquement l’impulsivité (TDAH, addictions).
    • D’identifier des populations à risque (jeunes binge drinkers) ; mise en place de prévention.
  • Importance du contrôle des facteurs motivationnels (privation, valeur de la récompense) et de l’usage de protocoles en double ou simple aveugle.

Points méthodologiques

  • L’extinction n’efface pas l’apprentissage initial : récupération spontanée possible ; toujours considérer l’histoire du sujet.
  • Les mesures comportementales infèrent l’état cognitif : multiples indicateurs (vitesse, erreurs, latence, persistence).
  • Utilisation d’indices contextuels, stimuli secondaires et variations de contingence pour disséquer apprentissage vs motivation.