Operante conditionering

Operante conditionering is een theorie hoe dieren nieuwe dingen leren. Dit is als eerst beschreven door een Amerikaanse psycholoog genaamd Skinner, hij baseerde zijn werk op Thorndike en zijn "law of effect". Je hebt misschien ook weleens gehoord van klassieke conditionering, wat beschreven is door Pavlov.

Bij operante conditionering spreken we vaak van een kwadrant. Dit kwadrant bestaat uit vier delen;

  • Positieve bekrachtiging
  • Negatieve bekrachtiging
  • Positieve straf
  • Negatieve straf

De woorden positief en negatief betekenen hierin niet "goed" en "slecht", maar positief = iets toevoegen, negatief = iets weghalen. Bekrachtiging heeft als doel om gewenst gedrag te vermeerderen, straf heeft als doel om ongewenst gedrag te doen afnemen. Met dit in gedachte krijgen we dus de volgende uitleg in het kader van het paard. 

Als je dit samenvoegt;

 

In principe leert een paard (en elk ander dier) met elk van deze methodes, dus waarom werk ik dan veelal met positieve bekrachtiging?

De meeste traditioneel getrainde paarden worden getraind met negatieve bekrachtiging (bijvoorbeeld: je beendruk weghalen als het paard sneller/ruimer gaat lopen), en soms met positieve straf (je paard een tik met de zweep geven als hij bokt).

Inmiddels weten we dat straf gebruiken in de training ervoor zorgt dat paarden niet minder angstig worden. Het gevolg hiervan is dat paarden zich vaak afsluiten. Je paard lijkt dan braaf en dapper, maar in werkelijkheid heeft het paard geleerd dat de straf die volgt op het uiten van angst of ongemak erger is dan de daadwerkelijke angst of ongemak. Om deze reden maak ik tijdens mijn trainingen geen gebruik van positieve straf, en bijna niet van negatieve straf. Een kleine opmerking hierbij is dat er wel iets meer nuance in schuilt dan ik nu hier zo kort kan beschrijven: bijvoorbeeld je paard wegduwen om bepaald gedrag te verminderen valt ook onder het kopje positieve straf. Je voegt namelijk iets toe (positief) wat ze niet leuk vinden zodat het gedrag minder wordt (straf). Toch zullen we het er snel over eens worden dat dit geen angstig of afgesloten paard creëert. Wel is er de mogelijkheid dat het een gefrustreerd paard oplevert: je legt je paard namelijk nu niet uit wat je dan wél van hem wil zien. Daarnaast moet het wegduwen wel hard genoeg zijn dat het paard het écht niet leuk vindt, anders zal het gedrag niet afnemen. Een vergelijkbaar voorbeeld voor negatieve straf (iets leuks weghalen om gedrag te verminderen) is je tasje met beloningssnoepjes wegdraaien als je paard daar met zijn neus bij zit. Wederom schuilt hier hetzelfde gevaar in: je paard kan gefrustreerd worden als je niet óók uitlegt wat je dan wél wil zien. 

Negatieve bekrachtiging is vaak milder om mee te trainen. Het gevaar hierin schuilt echter in dat trainers vaak de druk opvoeren als een paard niet direct doet wat er van hen gevraagd wordt. Op het moment dat je dit doet is de vraag wanneer je de grens overgaat naar (pijnlijke) positieve straf. Als je traint met negatieve bekrachtiging zul je dus zeker moeten opletten dat je de druk niet opvoert, maar de vraag hetzelfde houdt. 

De reden dat ik in de eerste instantie zelf werk met positieve bekrachtiging in plaats van negatieve bekrachtiging, is ten eerste omdat het simpelweg leuker is voor het paard. Een paard werkt niet voor jou als trainer, een paard werkt voor een beloning of het ontwijken van druk. Het is geen moeilijke optelsom om te zien dat werken voor iets wat je leuk vindt nou eenmaal meer plezier oplevert dan werken zodat je geen druk voelt. Daarnaast kun je met positieve bekrachtiging het makkelijkste keuzevrijheid voor je paard inbouwen. Je kunt je paard bijvoorbeeld leren om tijdens de training zelf pauze te nemen, zodat de training niet overweldigend wordt of om tijdens de training een stukje verwerking te laten plaatsvinden. De keuzevrijheid zorgt weer voor iets wat we forcefree trainen noemen, en dit is wat in mijn ogen de training van een paard ethisch kan maken.

Zelf gebruik ik hierbij een clicker, omdat dit de zogeheten "bridge" is. Het lastige aan operante conditionering is dat je het goed moet timen, omdat je anders per ongeluk het verkeerde gedrag aanleert. Met behulp van een clicker (of een specifiek kort woord/geluid), kun je heel exact aan je paard aangeven dat het gedrag wat hij laat zien op het moment van de click, het gedrag is wat je wil zien. Hierbij heb je daarna rustig de tijd om de (voer)beloning te geven.

 

De basis van clickertraining

Als ik met een paard aan de slag ga, leer ik altijd eerst de basis aan. Zonder goede basis loop je op den duur vast. Problemen die zich dan onder andere kunnen voordoen zijn;

  • Een paard die happerig wordt op de voerbeloningen
  • Een paard die overweldigd wordt tijdens de training
  • Een paard wat niet snapt wat de clicker betekent

Tijdens de basis ga je je paard in ieder geval de volgende drie dingen aanleren;

  • Wat betekent de click (click = beloning)
  • Een neutrale default positie
  • Het op een fijne manier aannemen van de voerbeloning

 

Als je paard deze basisdingen begrijpt kun je verder met bijvoorbeeld targettraining, het aanleren van trucjes, verminderen van stress tijdens het wandelen/rijden, je paard voorwaartser maken, voernijd verminderen, en zo nog vele andere dingen. Eigenlijk is er geen limiet op wat je met clickertraining aan kunt leren, behalve de grenzen van je paard.

 

Verder zijn drie dingen erg belangrijk tijdens de aanleerfase van clickertraining: goede timing, kleine stapjes en vaak belonen.