讲座三:动物如何学习(1)
导言
与动物打交道的关键是从动物的角度来看世界,这就需要理解学习理论。虽然这在训练过程中非常有用,它在试图纠正有问题的动物行为时更是基本的知识。
基本学习理论:
虽然驯化物种都有五种基本的官能,即看(视觉)、听(听觉)、闻(嗅觉)、尝(味觉)和触摸(触觉),但它们的感官能力并不相同,更不用说与人类的感官能力相同了。因此,动物对世界的感知是不同的,这将会显著地影响动物交流的方式,不仅是它们彼此间(同种)的交流,而且也包括与其他物种的交流(非同种)。在每个情况下你都应该仔细考虑此点,并认识到动物是不会说话的交流者。
学习理论的原理是来自对行为所进行的实验研究。学习,也叫作制约,可以定义为"任何反应方面出现的相对永久的变化,产生该变化的原因是经历"(McGreevy, 2001)。但是,并非所有行为变化都是由于学习而发生的。有些行为变化,比如渴时饮水,就是由于动机的变化。
行为是由其结果控制的。如果结果是"好的",那该行为就更有可能被重复,与此相反,如果结果是"坏的",该行为就不太可能被重复。这也称为"效果律",即行为是由其结果而修订的。当动物接受训练时,我们实际上是在操作其经历。
学习种类
人们认知和研究过的学习方法有许多种。不过,用以纠正狗和猫的行为的普遍使用的两条原理是古典制约和操作制约。经典制约,也称为巴甫洛夫制约,最初是由巴甫洛夫在上个世纪初研究的。据说,当某个中性刺激物(条件刺激物,CS)与一个具有生物意义的事件(非条件刺激物,UCS)反复同时出现时,就会发生制约,结果,当CS单独出现时,就会产生一个反应(条件反应,CR)(Atkinson, Atkinson and Hilgard, 1983,McFarland, 1985)。
比如,"好狗"这个词本来是中性的,这个词对狗毫无意义。但是,当这个词与具有生物意义的事件(如给一点吃食或拍拍狗的头)一起出现时,通过巴甫洛夫制约,这个词就可能成为一个CS。举例中所说的条件反应可能会是摇尾巴。
操作制约是完成狗的训练的主要方法。操作制约教给动物做出一个自动反应,以便获得鼓励或奖励。给予积极的奖励,比如食物,能增加某一特定反应被重复的机会(Skinner, 1974)。这样狗就学会了行为是由其结果控制的。同样的,动物会做出某一行为以获得第二次奖励,或刺激,而这个鼓励或刺激总是与主强化刺激物同时出现(比如说,"好狗"这个词,总是伴随着食物奖励)。
某一行为是否会被重复要看结果的本质而定。因此,如果结果是令人愉快的,比如一点食物,那么该行为就更可能被重复(Skinner, 1974)。应用这一方法论就可以让动物形成新的行为,比如用口头或视觉命令狗"坐下"或"别动"。
我们研究了各种参数,看这些参数对通过操作制约来获得或保持一个反应的能力的影响。比如,做出反应后必须立即给予奖励,这样才有效果。还可以通过部分强化时间表来维持某种行为,即按照时间表对特定反应给予间歇性的奖励(Mazur, 1994)。
因此,要教会一种新的行为,比如"坐下",需要通过一个影响过程来训练小狗。开始的时候,对小狗的任何接近"坐下"的行为都要给予奖励,逐渐地过渡到只强化与期望的反应非常接近的行为反应。一旦小狗看到食物,就能可*地作出反应,命令就与需要的反应伴随发生了。当小狗学会该行为后,就可以使用一个可变的强化日程,对小狗的反应每隔三至四次才给予奖品,但应该总是表扬它,这样学会的行为才可能坚持(Atkinson, Atkinson and Hilgard, 1983; McFarland, 1985)。奖品,或者正强化,可以是任何动物想要的东西,比如食品、出去散步、游戏,或者与主人玩耍。
强化有两种,主强化和次强化。动物已经进化到了能够本能地意识到,主强化要么是"好"或"坏",就是说动物不需要学习就知道食物和交配之类的主强化是"好的",因为这些是生存要素,它们也知道缺水是"坏的"。而象拍拍头或"好孩子"等词之类的次强化的价值,动物就必须通过学习才知道。
主强化刺激下的学习比较快。但是,次强化能够加强训练。因此,在许多情况下,我们使用食物作为奖品,因为大多数狗都喜欢食物。但是如果我们再给一个轻拍,或给予口头鼓励如"好狗"等,其效果会得到增强,因为能够加强反应(Voith, 1979; Owren, 1987; Weston, 1990)。
[1] [2] 下一页