Theme 2

Introduction aux Modèles de Reconnaissance

Nature du processus de reconnaissance : * Il s'agit d'un processus extrêmement rapide et efficace. * Identification des frontières : Le système permet d'identifier les limites entre les objets, même si elles ne sont pas physiquement perceptibles. Par exemple, un individu a tendance à percevoir un carré superposé à un cercle plutôt qu'un carré accolé à une forme avec un trou (forme encavée). * Construction de frontières : Dans le cas d'images composées de taches (comme l'exemple du dalmatien), l'individu parvient à identifier la présence d'un chien alors qu'aucune frontière n'est apparente. Les processus de reconnaissance créent eux-mêmes ces frontières. * Indépendance du point de vue : Un objet (comme une chaise) peut être reconnu sous n'importe quel angle, même si cet angle spécifique n'a jamais été rencontré auparavant. * Adaptabilité à la variabilité : Le système s’adapte à une variabilité infinie des stimuli. Par exemple, la lettre « n » peut être reconnue qu'elle soit en cursive, majuscule ou minuscule. L'exemple de la lettre « T » est également cité dans les ouvrages de référence. * Reconnaissance partielle : Un objet peut être identifié même s'il est partiellement caché. Par exemple, le mot « fleur » peut être aisément reconnu même si sa première lettre est presque totalement occultée.

Modélisation de la Reconnaissance de Formes

Définition d'un modèle : * Fournit une explication théorique pour comprendre le fonctionnement des phénomènes de base. * Consiste en un ensemble de postulats théoriques représentant une hypothèse sur le fonctionnement cognitif. * Objectif de la modélisation : Expliquer le plus grand nombre de phénomènes avec le moins de postulats possibles.
L’appariement à un gabarit : * Principe : Une copie miniature (gabarit) de chaque objet connu est stockée en Mémoire à Long Terme (MLT). La reconnaissance se fait par appariement entre la forme perçue dans l'environnement et ces copies en mémoire. * Processus : Lorsqu'il y a une correspondance exacte entre la stimulation environnementale et le modèle interne, la reconnaissance a lieu. * Limites du modèle : * Diversité des stimuli : L'individu devrait posséder une représentation pour chaque variante possible d'un objet, ce qui nécessite une capacité de stockage en MLT considérable. * Manque de flexibilité : Le modèle peine à expliquer comment nous reconnaissons des objets jamais vus auparavant ou des variantes légèrement différentes des gabarits stockés.

Modèle d'Analyse des Caractéristiques

Principe de base : 1. Le stimulus est décomposé en caractéristiques élémentaires. 2. Ces caractéristiques sont comparées à un ensemble d'items en MLT. 3. La reconnaissance survient quand les caractéristiques détectées correspondent à un objet en mémoire.
Preuves expérimentales : * La lettre « N » est plus facile à trouver parmi des distracteurs aux formes courbes (comme le « O ») que parmi des distracteurs aux formes droites (comme le « K »), car les caractéristiques partagées avec le « K » créent de l'interférence.
Le modèle de Gibson (1969) : * Propose une liste de caractéristiques pour la reconnaissance des lettres, incluant : * Lignes droites (horizontale, verticale, oblique $/$ , oblique $\\$ ). * Courbes (fermée, ouverture verticale, ouverture horizontale). * Intersections, symétries, redondance et changements cycliques.
Étude de Gibson, Shapiro et Yonas (1968) : * Tâche : Juger si des paires de lettres sont identiques ou différentes. * Résultats : Le temps de réponse diminue à mesure que le nombre de caractéristiques différentes entre deux lettres augmente. * Exemple : « F » et « W » possèdent au moins $7$ caractéristiques différentes, tandis que « P » et « R » n'en ont qu'une seule (l'oblique). La distinction est donc plus rapide pour « F » et « W ».
Limites communes (Gabarit et Caractéristiques) : * Incapacité à expliquer la reconnaissance d'objets partiellement cachés. * Absence de prise en compte de l'influence du contexte.

Le Rôle du Contexte et le Traitement Dirigé par les Concepts

Dépendance contextuelle : La reconnaissance ne repose pas uniquement sur les caractéristiques physiques. Elle dépend de la MLT, des connaissances, des attentes et de l'expérience. * Exemple classique : L'individu lit « THE CAT » même si la lettre centrale du premier mot et celle du second sont physiquement identiques ( $H$ et $A$ visuellement ambigus).
L’effet d’appréhension du mot (Cattell, 1885) : * La probabilité de rappeler des lettres est plus élevée lorsqu'elles forment un mot (ex: D-O-I-G-T) que lorsqu'elles forment une série aléatoire (ex: T-G-D-O-I).
Expérience de Reicher (1969) : * Vise à tester trois hypothèses explicatives : 1. Hypothèse 1 : Le mot fournit un contexte facilitant la reconnaissance en parallèle des lettres. 2. Hypothèse 2 : Le participant utilise le mot pour deviner les lettres non reconnues (via la MLT). 3. Hypothèse 3 : Le mot facilite la mémorisation et réduit l'oubli en Court Terme. * Procédure : Présentation d'un stimulus (mot ou non-mot) suivi d'un masque, puis d'un choix forcé entre deux lettres. Pour contrôler l'effet de « deviner », les deux choix de lettres forment des mots valides (ex: SAIS vs SAIT). * Phénomène mot-lettre : Une lettre est mieux reconnue lorsqu'elle fait partie d'un mot que lorsqu'elle est présentée seule.

Le Modèle d'Activation Interactive

Structure à trois niveaux : 1. Niveau I : Caractéristiques (Input visuel). 2. Niveau II : Lettres. 3. Niveau III : Mots.
Mécanismes : * Propagation de l'activation ( $+$ ) et de l'inhibition ( $-$ ) entre les niveaux. * Le système arrive graduellement à un état d'équilibre. * Traitement dirigé par les données (Bas-Haut) : La stimulation guide la reconnaissance (des caractéristiques vers les mots). * Traitement dirigé par les concepts (Haut-Bas) : Les connaissances et attentes influencent la perception (des mots vers les lettres).
Exemple du Canard-Lapin : * Les caractéristiques permettent de voir l'un ou l'autre (données). * Les attentes (si l'on mentionne explicitement le lapin) déterminent lequel sera perçu en premier (concepts).
Étude de Rueckl et Oden (1986) : * Manipulation des caractéristiques (lettre ambigüe entre « n » et « r » dans « nager/rager ») et du contexte (phrase sur la piscine vs phrase sur une crevaison). * Résultats : La probabilité de lire « nager » est de $100\%$ avec le mot clair « nager » et le contexte piscine, mais tombe radicalement si la stimulation ou le contexte favorisent « rager ». Le contexte a un impact majeur surtout lorsque la stimulation est ambigüe.

La Reconnaissance des Visages

Spécificités des visages : * Faculté humaine très développée malgré la grande similitude structurelle des visages. * Éléments critiques : Les éléments fixes (distance entre les yeux, longueur du nez) sont plus utiles que les éléments mobiles (bouche). Les participants fixent davantage la partie supérieure du visage (Barton et al., 2006). * Sensibilité lumineuse : La reconnaissance est altérée par l'absence d'ombrage, les images négatives ou l'éclairage par en-dessous.
Modèle multidimensionnel de l’espace-visages (Valentine, 1991) : * Chaque visage est encodé selon ses dimensions (couleur des yeux, forme, etc.). * La Norme : Le centre de l'espace représente le visage « moyen » construit à partir de tous les visages rencontrés au cours de la vie. * Effet du caractère distinctif (Light, Kayra-Stuart et Hollander, 1979) : Les visages jugés atypiques (inhabituels) sont mieux reconnus. Explication : Ils sont situés en périphérie de l'espace-visages, là où la densité est faible, réduisant les risques de confusion. * Caricatures (Benson et Perrett, 1991) : Les visages familiers sont reconnus plus vite sur une caricature que sur une photo véridique, car les traits distinctifs sont accentués, éloignant la représentation de la norme.
Effet trans-ethnique (O’Toole et al., 1994) : * Reconnaissance plus précise des visages de sa propre ethnie. * Explication : Notre norme est basée sur les visages rencontrés fréquemment (souvent la même ethnie). Les dimensions de notre « espace-visages » sont optimales pour distinguer ces visages. Les visages d'autres ethnies se retrouvent donc regroupés de manière dense dans une zone inappropriée, augmentant la confusion.

L'Effet d'Inversion et l'Expertise

Effet d'inversion : Inverser un visage nuit beaucoup plus à sa reconnaissance qu'inverser un objet (comme une maison).
Illusion de Thatcher : Difficulté à détecter des changements (yeux/bouche retournés) sur un visage inversé.
Deux types de traitements : 1. Traitement des caractéristiques : Analyse des éléments individuels (nez, œil). 2. Traitement configural : Analyse des relations spatiales entre les éléments. C'est ce traitement qui est saboté par l'inversion.
Étude de Leder et Carbon (2006) : * Compare visages et maisons selon trois critères : couleurs, relations spatiales, éléments. * Résultats : L'inversion nuit à la reconnaissance des visages quand les relations spatiales ou les éléments changent, mais n'a aucun effet sur la reconnaissance des maisons. Les objets seraient reconnus via les caractéristiques, alors que les visages utilisent le traitement configural.
Neuropsychologie : * Aire faciale fusiforme : Zone cérébrale dédiée aux visages. * Réponse N170 : Potentiel électrique spécifique apparaissant environ $170\,ms$ après la vue d'un visage. * Prosopagnosie : Trouble spécifique de la reconnaissance des visages.
Débat sur l'Expertise : * Nancy Kanwisher : Processus spécifiques aux visages. * Gauthier & Tarr : Les processus sont les mêmes que pour les objets, mais nous sommes des « experts » en visages. * Étude de Diamond et Carey (1986) : Les experts canins montrent un effet d'inversion pour les photos de chiens, contrairement aux novices. Cela suggère que le traitement configural (et l'activation de l'aire fusiforme) découle de l'expertise plutôt que d'une spécificité biologique stricte aux visages.

Pour le groupe des experts :

Les experts possèdent une expertise aiguë en reconnaissance de visages, leur permettant d'utiliser principalement un traitement configural. Cela signifie qu'ils analysent les relations spatiales entre les éléments du visage, ce qui est optimal pour identifier les visages à l’endroit. Les visages à l’endroit permettent d'exploiter cette analyse des configurations, rendant leur reconnaissance plus efficace. Les experts sont donc capables de tirer profit des caractéristiques distinctives et des relations entre elles, entraînant un pourcentage de reconnaissance plus élevé pour les images à l’endroit.

Pour le groupe des novices :

Les novices, quant à eux, ont tendance à utiliser un traitement des caractéristiques, se concentrant sur des éléments individuels (comme les yeux, le nez, etc.) plutôt que sur la configuration globale. Cela diminue leur capacité à reconnaître les visages à l’endroit, car ils manquent de l’expérience nécessaire pour intégrer ces éléments de manière efficace. En revanche, lorsqu'ils regardent les images à l’envers, la reconnaissance des caractéristiques individuelles devient plus saillante, ce qui peut faciliter l'identification et conduire à un pourcentage de reconnaissance moins élevé pour les images à l’endroit comparé à celles à l’envers.