Apprentissage associatif : Le conditionnement opérant

L’apprentissage associatif implique des opérations expérimentales dans lesquelles les événements-stimuli de l’environnement sont soit corrélés entre eux soit avec le comportement. Les deux formes d’apprentissages associatifs les plus étudiées sont le conditionnement répondant et le conditionnement opérant. Cet article s'intéresse à l'apprentissage opérant.

Le Conditionnement Opérant

AO

 

Un comportement opérant est défini comme une action qui se produit à cause de ses conséquences. Les exemples d’un opérant donné sont membres d’une classe. L’appartenance à une classe est définie par une propriété fonctionnelle commune, c’est-à-dire qui produit la même conséquence.

Le terme opérant se différencie de répondant dans l’analyse du comportement. Les opérants sont plus «émis» que «provoqués». La topographie (la structure) d’un opérant donné est fonction des opérations environnementales nécessaires à produire la conséquence. La structure de l’opérant ne sera pas dépendante de la nature du stimulus le précédent, comme l’est le répondant. L’opérant «opère» sur l’environnement en produisant une conséquence qui ajustera la probabilité future d’une action de même classe (Réponse-Conséquence), alors que le répondant «répond» au stimulus présent dans l’environnement (Stimulus-Réponse). Par exemple, on ne dira pas qu’un homme agit en fonction des conséquences qui suivront son action, mais qu’il agit à cause des conséquences qui ont suivi une action semblable dans le passé.

La topographie d’un opérant peut varier (prendre son vélo pour aller à son travail ou s’acheter un home cinéma pour regarder des concerts) car ce qui le définit c’est sa fonction, sa conséquence pour l’organisme qui l’émet (éviter la foule - des trains, des salles de concert ...). Toute réponse qui produit la même conséquence est considérée comme faisant partie de la même classe opérante, même si leurs topographies diffèrent (bien qu’il soit tout à fait possible de monter une préparation expérimentale ne délivrant la conséquence qu’à une topographie précise de réponse).

L’apprentissage instrumental, le conditionnement instrumental, le conditionnement Skinnerien ou encore Thorndikien sont à considérer comme des synonymes du conditionnement opérant.

Une différence entre le conditionnement répondant et opérant est la direction de l’apprentissage. Dans le conditionnement répondant, l’apprentissage se fait de façon chronologique : pour associer un CS à un US, le CS doit être présenter avant le US. S’il est place après, l’apprentissage ne s’effectue pas. Dans le conditionnement opérant, la conséquence est, logiquement, placée après la réponse. En fonction de la qualité de la conséquence, la classe du comportement la précédent sera renforcé ou pas. D’un coté c’est le stimulus qui va modifier la réponse, de l’autre c’est la conséquence.

Il est possible d’introduire une composante «signal» et de la combiner avec la composante «conséquence» pour produire un opérant. Si un stimulus particulier est présent, alors la réponse produira une conséquence donnée, s’il n’est pas présent, la réponse ne produira pas cette conséquence. On appelle ce stimulus «stimulus discriminatif» (Sd). La réponse se fera en présence du stimulus discriminatif et non en son absence. Il serait incorrect de dire qu’un opérant est émis indépendamment d’un stimulus le précédent ou encore qu’un opérant n’a pas de «cause». Il n’est simplement pas causé par un stimulus «provoquant» (eliciting stimulus). Le rôle causal du Sd est différent que dans le conditionnement répondant. Plutôt que de produire une réponse, le Sd offre une opportunité dans laquelle une réponse produira, avec un certain degré de réussite, une conséquence donnée.

La conséquence produite sera soit aversive soit appétitive. Une conséquence aversive (noté C-) aura comme fonction de diminuer la force d’émission de la réponse. Une conséquence appétitive (noté C+) aura comme fonction d’augmenter la force d’émission de la réponse.

Conséquence aversive, punitions négatives et positives sont des synonymes fonctionnels : ils diminuent la probabilité future d’émettre une action de la classe du comportement qui vient de se produire. Au niveau topographique, une punition positive (noté +S-) est l’ajout d’un élément environnemental possédant de façon naturelle ou ayant acquis une valeur aversive pour l’organisme (choc, froid, bruit, regard d’une foule, odeur ...). Une punition négative (noté -S-) est le retrait d’un élément environnemental possédant de façon naturelle ou ayant acquis une valeur appétitive pour l’organisme (argent, jeton, point, sexe, nourriture, matériel technologique, attention ...).

Conséquence appétitive, renforcements positifs et négatifs sont également des synonymes fonctionnels : ils augmentent la probabilité future d’émettre une action de la classe du comportement qui vient de se produire. Un renforcement positif (noté +S+) est l’ajout d’un élément environnemental possédant de façon naturelle ou ayant acquis une valeur appétitive pour l’organisme. Un renforcement négatif (noté -S+) est le retrait d’un élément environnemental possédant de façon naturelle ou ayant acquis une valeur aversive. Nous utiliserons les termes conséquences appétitives et aversives car ils reflètent davantage l’aspect fonctionnel et le concept de classe que leurs synonymes.

Le terme renforcement différentiel fait référence au processus sous-jacent du conditionnement opérant : ne sont affermies que les actions tombant dans une certaine classe de réponses.

Les renforcements peuvent être de différents types : primaires, conditionnés ou généralisés. Un renforceur primaire est non conditionné. Ils rencontrent les besoins humains de base comme la nourriture, l’eau, la sécurité, l’intimité, le sexe. Le renforceur conditionné est un événement qui a été associé de façon répondante à un renforcement non conditionné. Un renforceur généralisé est un événement ou objet qui ne rencontre pas directement les besoins de base et qui n’est pas limité  à une réponse particulière, comme le sont les renforceurs conditionnés. L’argent en est un. Il donne accès à une variété d’autres stimuli.

Certains éléments précédant l’apparition du Sd peuvent faire varier la saillance du stimulus, la topographie ou la force de la réponse ainsi que le caractère renforçant ou punissant de la conséquence. Nous choisissons de les appeler Opérations Motivantes (OM) (de l’anglais Establishing Opérations). Michael (2000) les définit comme des événements environnementaux, opérations ou conditions du stimulus affectant les comportements d’un organisme en modifiant : (1) l’efficacité en tant que conséquence d’autres événements environnementaux (effet d’altération de la valeur) et (2) la fréquence d’apparition des comportements de l’organisme liés à ces événements lorsqu’ils sont des conséquences (effet évocateur ou d’altération du comportement).

Skinner distingue deux opérations produisant cet effet : la déprivation et la satiété. La déprivation est l’action de priver un organisme de quelque chose auquel il avait accès. La déprivation accroit la vigueur et la fréquence de comportements liés à la privation, par exemple une personne privée de relations sexuelles pendant un moment significatif non seulement s'accouplera promptement dès que l’occasion s’en présentera, mais produira plus de comportements en rapport à la sexualité comme la masturbation, l’inscription à un site rencontre, la mise en évidence ou le soin de son apparat de séduction (soigner son corps et son apparence vestimentaire), faire la cour, regarder plus fréquemment les personnes du sexe opposé, fréquenter des lieux où la probabilité de faire des rencontres est plus élevée, etc.. A l’inverse, la satiété diminue la magnitude et la fréquence des comportements liés à ce qu’on a rassasié chez l’organisme.

Une OM n’est pas un Sd. Tout les deux peuvent être considérés comme des stimuli mais l’un serait motivationnel et l’autre discriminatif. Un Sd signale de façon différentielle la disponibilité de conséquences pour un certain comportement. Une OM augmente ou diminue le caractère appétitif/aversif de conséquences données ainsi que la vigueur de certains comportements, indépendamment de la présence ou non du stimulus discriminatif. Cependant, la question reste complexe et n’est pas encore tranchée : un Sd augmente également la vigueur du comportement (Michael, 1982).

Trois applications de l’apprentissage opérant : le shaping, le chaining et le prompting/fading

Le shaping est le renforcement successif d’approximations d’un comportement cible et l’extinction des approximations précédentes jusqu’à obtention du comportement cible. La procédure est la suivante : un comportement cible (noté cible) est identifié et une approximation (noté approx 1) choisie. Approx 1 est renforcé jusqu’à ce que l’organisme le présente. Lorsqu’il est présenté, une seconde approximation (noté approx 2), plus proche de la cible que approx 1, est choisie. Approx 2 est renforcé et approx 1 mit sous extinction. La procédure est recommencée jusqu’à obtention de la cible.

Le chaining est la combinaison de petites unités comportementales ayant pour fonction l’accomplissement d’un comportement plus long, plus complexe. Le comportement complexe est analysé en une chaîne successive de comportements. Chaque maillon de la chaîne est travaillé un par un en commençant soit par le premier maillon (forward chaining) soit par le dernier (backward chaining). Chaque comportement de la chaîne est relié au précédent en qualité de renforceur et au suivant en qualité de signal.

Le fading implique une procédure appelée prompting.

Le prompting augmente la probabilité qu’une personne adopte un comportement déterminé. Un stimulus discriminatif suffisamment puissant est utilisé pour faciliter la réalisation du comportement (consigne vocale, signal lumineux, mouvement). Le fading implique le retrait progressif du prompting ou encore le passage progressif par des modalités de moins en moins saillantes afin que le comportement passe sous le contrôle du Sd.

 

Article écrit et mis en ligne le 25 décembre 2010 par Egide Altenloh (c)