实际上你不用非得盯着看不够,那玩意儿早就烂在肚子里了,我上次蹲茅房被茅房冲水声惊得差点摔碎马桶,实际上那是纯粹的操作性条件反射,就是让那个声音变得更吵,下次还敢。 大量人认定这玩意儿特逗,当作只要看动作就行,结局彻底搞错了。

比如你教孩子玩“木头人”,你刚喊停,孩子一停,你数到三,他可能就三秒就停了,这时候你心里得琢磨:他是不是认定停得久点能得点奖励?要是他停忒久反而让你认定烦,那你可能得改策略,让他停短点,要么换个玩法。

这种游戏,靠的就是你在他停的时候给个正向反馈,让他认定“啊,我停住,不错,拿那个小红点”,他自然就会模仿你,一套一套的。 再比如我小时候,我妈有个小罐子,专门装那些没吃完的饭团。每天下班回家,我听到罐子盖盖“咔哒”一下,心里就有数:今天她又给我加了“保险感”这块糖。我知道,她平时不给我加,我肯定饿得慌,一饿就闹,但她加了,我就乖乖坐在那儿,等着看鸡腿。

这种罐子盖子的声音,听着怪怪的,但功能就是让我不乱动,让我知道“没难题,你来了,我没事”。

这就是典型的操作性条件反射,你给你的信号,我给个反应,循环往复。 还有网上那个著名的“老鼠迷宫”实验,那个行为主义学家斯金纳就是拿老鼠做的。关进小黑屋,老鼠到处乱跑,找不到出口,饿得直叫,拼命撞墙,撞了一百多次,有时候撞悲伤,连气都喘不上,还得拼命安慰自己:“别撞了,再撞一次可能就能出去了。”这时候你给它一个“暂停”的按钮,要么给它一点吃的罐头,它就会把“撞墙”和“吃罐头”联系起来。赶明儿你一按暂停,它立马就会停在那儿,不再乱撞,出于它知道停是好事。

要是它撞了墙你不给罐头,它肯定撞得更凶,就连撞死。

这个实验最细节的地方在于,老鼠在迷宫里迷路的时候,实际上是在寻找“毛病路径”和“保险路径”之间的平衡点,你给它一点点提示,它就能调整这个平衡,下次就准了。 说到数据,光凭感觉说“它能学”忒没说服力了,咱得看看具体的数字。在经典的巴甫lov 实验里,那个狗咬手的时候,它可能一直咬,直到训好了为止。但在老鼠迷宫的强化学习中,数据来得更真。

要是一只老鼠在迷宫里跑了 500 米还没找到出口,这时候你按下一个“奖励”按钮,比如一颗花生,它这时候的“奖励预期”会飙升。心理学研究里有个说法,要是强化物的预期值超过 80%,老鼠的“撞墙次数”会显著下降。

也就是说,只要预期够高,行为就会滞后调整。 还有个细节挺有意思。有些老鼠在迷宫里,你给它一点吃的,它可能先是在原地不动,要么只是略微动一下,然后突然全速冲出口。

这说明它不是彻底学不会,而是正在建立新的“条件反射”链条,这个过程是有延迟的。

有时候它还没反应过来,你早就给了,它就忘了。

这就是为啥有时候你给它一点肉,它反而更不听话,出于它认定“肉是假的,我不配吃”。

这时候你得加一点“确定性”,比如固定工夫给,要么每次都给一样的分量,这样它才能信任“点头”才是获取肉的对信号。 还有啊,这种反射有时候会演变成你废掉一半。

比如你教别人做动作,他做得挺好,你给个大拇指,他下次还想做得好。

可是有一天,你要求他做得更好一点,但你没给他具体的反馈,只是冷冷地说“再试一次”。他可能过了待会儿就拉倒了,出于他发现“再试一次”并没有带来新的奖励,就连可能增添痛苦。

这时候,你给他一点“小惊喜”,比如突然给他吃块肉,要么给他一个拥抱,他就可能又回来了,就连比那会儿更听话。

这就是操作性条件反射的精髓啊,奖励拍板行动,惩罚拍板拉倒。 实际上生活中到处都是,比如按摩店,技师按你肩膀,你舒服了,技师就给你按得舒服,下次按摩工夫就变长。

要么你去理发店,你让理发师剪短发,他剪得短,你一夸,他就剪得更短。

这种“修剪”行为,都是基于反馈的。你剪长了,他剪得短一点;你中意了,他剪得更短。

这就像修车,师傅修车,车子修好了,师傅高兴,下次修得更快更好。 再说说小孩儿教育,大量新手父母认定孩子不听话,是出于孩子“不知改错”,实际上那是家长没给“改错”的机会。

比如孩子想偷拿玩具,要是家长直接打,孩子可能下次还会,出于“捣乱”没被制止,只是被“惩罚”了。但要是家长说“你拿这个,我就给你这个”,孩子拿到东西,下次就不闹了。

这就是“行为后果”的强化。

哪怕孩子闹得再凶,只要你在他闹的时候不答应,还给他一个“宁静”的选项,他下次就会不闹了。出于“宁静”是它更喜爱的,它自然就会选择“宁静”。 还有网络上的“刷短视频”机制,你刷十分钟,你就认定“爽”,这时候你挺好办把“刷”和“爽”绑在一起,下次你就想刷。但要是刷十分钟,系统告诉你“已结算”,你就没感觉,下次你就没动力。

这就是奖励的及时性。

要是奖励隔得忒远,你挺快会忘记“刷”这件事,要么形成反感。

故此,大量 APP 喜爱用“充钱”要么“赠送时长”来驱动你,本质上就是给一个定期的奖励,让你认定“今天用点钱,就能多刷会儿”,哪怕你今天没刷,它也会认定今天“亏”了,下次就会补救。 实际上操作条件反射最可怕的地方在于,它让你盲从。

比如某些同事之间,你A 做了事,B 就跟着做,哪怕A 当时没给啥奖励,B 也会跟着做,出于它认定“这样大家都顺”。

这就是社会性操作性条件反射,你给的信号,大家都给响应。

故此有时候你认定同事都跟你做了,实际上可能只是给了信号,大家互相操作,哪位也没给啥特别的反馈,只是习惯成自然。 最终说个最朴素的例子,就是商店里的收银台。你排队,结算员把卡一刷,发出“滴”的一声,你心里就有数:今天花了 123 块 45 分,今天能够走了。

这个“滴”声,就是那个“信号”,是你和商店之间建立联系的纽带。

要是这声音消亡了,你根本不会来,要么来了就走,不管钱多少。

故此这个声音,就是"123 块 45 分”的具体化,让你知道“今天我有钱了”。

这种具体的、有声音的反馈,让操作变得好办,让人好办记住。 你看,这些东西看似好办,但背后全是奖励和惩罚的逻辑。你给点吃的,它给你点乖;你给个响,它给你点做。

只要还给你这些“信号”,它就不会暂停。