当你觉得AI不够好用时,很可能是因为它还不够“懂”你。
比如,当我们希望ChatGPT能够产出我们真正想要的东西时,仍然需要学习如何使用精确的提示词去提问,甚至一遍一遍地对它进行引导。
这一方面是交流细节的问题,另一方面也是因为它很难抓住我们真正的需求和认知状态。
比如当AI去做售货员,当购物的大妈抱怨“这家店太贵”时,一个有“情商”的AI明白顾客可能只是想要折扣,或者需要有人给予她下决心购物的支持;而一个没情商的AI则会单纯地评价产品的价格并回复:“从整个市场的价格参数看,我们的衣服价格在中位线之上。”
显然,这样卖不掉东西。
听话的关键在听“音”。AI想要能理解人,就要真正地理解每个人的心理和认知状态。这就是情商。
我们先做个测试:
在一场聚会上,你看到小明把苹果从桌子移到了冰箱里,而小红并不在场。有人问你“小红会去哪里找苹果?”
我们大多数人都能立即回答“桌子上”。这是因为我们知道小红并不知道苹果被移动了。
这种理解他人认知状态的能力,在心理学中被称为“心智理论”(Theory of Mind)。
“心智理论”能力就像是给AI装上了一个“社交理解器”:它能帮助AI理解“话语背后的意思”,而不是简单地按字面意思回应。
让AI从一个只会背诵标准答案的机器,变成一个真正懂得“察言观色”的交流伙伴。这样它才能更好地处理客服、教育、医疗等需要深入理解人类想法的场景,避免机械化的回应带来的尴尬和误解。
拥有“心智理论”,可能是让AI摆脱“知识库“、成为伙伴或者服务者的第一步。然而,“情商”这个人类从小就开始发展的基本能力,最先进的AI系统拥有吗?
即使最先进的AI,也缺乏情商
12月,Meta的研究团队发布了一篇名为《Explore Theory-of-Mind: Program-Guided Adversarial Data Generation for Theory of Mind Reasoning》的研究报告。
他们开发了一个叫ExploreToM的系统。它就像一个自动出题机器,利用A*Search算法去生成各种复杂的社交场景来测试AI的理解能力。
ExploreToM的目标是创造那些看似简单,实则需要深刻理解人类认知的场景。这些场景远比简单的“苹果在哪里”要复杂得多,并通过不断累加多个人物、多个房间、私密对话,甚至是秘密观察,和场景动作使得“故事”逐步复杂。
研究人员把故事按照其主要考察点分了三组不同复杂度的情况。
(绿色是简单的场景,添加橘色条件变难,加红色条件则最难)
第一层:基础认知追踪
“玛丽把钥匙放在厨房的抽屉里。当她出门后,约翰把钥匙移到了客厅的茶几上。玛丽回来后会去哪里找钥匙?”
这类问题测试AI是否理解:一个人的行为会基于他们所知道的信息,而不是客观事实。
第二层:信息传递理解
这里面相对于只是改变物体,人物间还进行了信息传递
Beth给苹果撒了盐后离开厨房,并发短信告诉Charles苹果已经撒了盐。此时Charles进入厨房,他知道苹果被撒了盐吗?
这类问题测试AI是否能理解:这其中发生的信息传递
第三层:非对称认知关系
这个最为复杂,因为这里面所有角色的认知是不对称的,有的人知道有些事,而别人并不知道。
“珍妮在实验室配制样本。汤姆通过监控摄像头看到了整个过程,但珍妮并不知道被观察。利兹进来后把样本转移到了另一个位置。当主管问起这个样本时,每个人会怎么回应?”
这类场景测试AI是否能理解:多人的不同认知状态、信息获取的间接性
不仅如此,他们还在这些场景里添加了陷阱作为变量,增加难度。
比如分心陷阱:
“史密斯医生在查看病历时,护士改变了药品位置。虽然医生在场,但他正在专注地打电话。”这是测试AI是否理解:物理在场不等于注意到变化。
误导性线索:
“安娜把蛋糕放在红盒子里。当比尔进来时,她说:'蛋糕在蓝盒子里'。比尔相信了她的话。”这考察AI是否能区分:客观事实、主观信念、故意误导
Meta的研究人员通过ExploreToM创建了超过3,000个独特的测试场景。每个场景都经过至少两位专家评审,确保其逻辑严密性和测试有效性。
研究团队选择了目前最具代表性的AI模型进行测试,包括OpenAI 的gpt-4o、Meta的Llama-3.1-70B-Inst以及Mixtral-8x7B-Inst。
结果让人大跌眼镜。对于含有某些元素的复杂问题,GPT-4o只获得了可怜的9%准确率,而Llama-3.1-70B准确率干脆只有0%。
实验数据显示,当故事中的动作数量从2个增加到4个时,所有测试模型的准确率都呈现显著下降趋势,GPT-4o的准确率从约0.45降至0.35,Llama-3.1-70B的准确率从0.35降至0.25,而Mistiral则一直在0.2左右徘徊,动作越复杂反而越上升,感觉全是靠蒙。
这说明,动作发生的越多,AI越记不住人物的认知状态更新。
令人意外的是,增加参与人数并未导致同样明显的性能下降。模型的准确率仅小幅下降了3-5个百分点。研究人员推测,这可能是因为在固定总动作数的情况下,增加参与人数实际上降低了每个人平均参与的动作数量,从而减轻了状态追踪的整体负担。
在动作类型的影响方面,数据显示不同类型的动作组合对模型表现产生了显著差异:在简单的位置移动任务中,GPT-4o可以达到55%的准确率,但一旦涉及状态更新或信息传递,准确率降至40%左右,特别是当引入非对称认知关系时,准确率进一步降至30%以下。其他模型表现出类似的降低趋势,例如Llama-3.1-70B在这三类任务中的准确率分别为45%、35%和25%。
情况越复杂,信息越不对称,AI越不知道这里的参与者都知道些什么。
以上,只能证明AI对基础信息和人际交流的理解已经非常有限了。
那再加上点尔虞我诈的复杂人心小元素,AI就更懵了。
虽然AI能相对较好的知道每个物体在哪儿时(40-50%的准确率),在涉及故意误导的场景中。比如
“玛丽把她的日记藏在床底下。当汤姆来到房间时,玛丽告诉他日记在书架上。汤姆相信了玛丽的话,然后离开了房间。”问题:汤姆认为日记在哪里?
准确率就降低至10-15%。
在更复杂的场景中,如增加观察者时,所有模型的准确率平均下降5-8个百分点。
在处理多重信念(例如“A认为B认为...”)时,准确率降至个位数
“妈妈把生日礼物藏在衣柜里。哥哥看到了,但假装不知道。妹妹问哥哥礼物在哪里,哥哥说不知道。妹妹去问爸爸,爸爸说礼物在车库里(他其实不知道礼物的真实位置)。”问题:妹妹认为哥哥认为礼物在哪里?/哥哥知道妹妹认为礼物在哪里吗?/妈妈知道妹妹从爸爸那里得到了错误信息吗?
当场景中加入较长时间跨度时(比如周一做了啥,周二做了什么),几乎所有模型的准确率都低于5%。
尤其值得注意的是,在处理“善意的谎言”场景时,模型表现比处理“恶意欺骗”场景更差,准确率相差约5-7个百分点,它根本读不懂这么细腻的情感。
人世套路深,AI也想回赛博村。
研究人员还深挖了一下,发现即使是最基础的状态追踪任务(就是搞清楚苹果到底在哪儿)中,模型的表现也令人担忧,GPT-4o、Llama-3.1 70B和Mixtral的准确率分别仅为37%、31%和26%。
他们作为旁观者,在最基础的物理状态追踪能力上都存在根本性不足。更别提真的理解人的认知状态、建立情商了。
所以现在别看那些GPT-4o和你对话非常丝滑,看起来相当拟人。但实际上AI现在就像一个只懂字面意思的“外国人”——它可以精确理解每个词,但根本抓不住对话的真实含义。
这些最先进的AI,都没啥情商。
既然没有,那就建所学校让他们学
其实人类的情商一般也是在社会化过程中慢慢培养出来的。那AI是不是也可以被培养呢?
沿着这个思路,研究人员把ExploreToM改造成了一所专门培养AI社交认知能力的工具。他们收集了将近8万个特制的“练习题”——包括ExploreToM生成的故事、问题和答案。用这些材料,他们开始“补课”训练Llama-3.1 8B模型。
训练效果证明了他们的猜测,经过训练的AI模型在多个标准测试中都有显著进步。在最具代表性的AI心智能力测试ToMi中,模型的分数提高了27分。
更令人兴奋的是,这个AI展现出了举一反三的能力。虽然训练时只用了2到4个人物的简单故事,但训练后的AI能够轻松处理更复杂的场景,比如有5个人物和更多互动的故事。这就像一个学生不仅学会了课本上的题目,还能解决更难的课外题。
研究团队还发现了一个有趣的现象:训练材料的质量比数量更重要。他们进行了一个精心设计的对照实验,创建了五组不同的训练数据集。这些数据集的大小相同,但其中需要“换位思考”的故事比例从0%逐步增加到100%。
结果表明,包含越多需要换位思考的故事,AI的表现就越好。
令人欣慰的是,这种特殊训练并没有影响AI的其他能力。就像补习数学的同时没有影响语文成绩一样,经过训练的AI在处理日常对话和回答常识性问题时,表现基本保持稳定。
经过这样系统的训练,AI在社交认知能力上取得了显著进步。在基础任务中,正确率达到了75-80%,相当于及格线以上的成绩。但是在更复杂的任务中,比如理解多重嵌套信念(确认A觉得B觉得......)这类问题时,表现仍然不够理想,正确率仅有30-35%。
但如果不进行训练,这些AI对这些问题的准确率可能仅为0。
解开AI缺乏情商之结
为什么AI都没有情商?
研究人员也对此做了一些探讨。问题还是出在训练数据上了。
过去的AI训练往往依赖于网络上现成的大量数据,但这些数据中真正需要换位思考的内容可能相对较少。
这就像是在写故事时,如果不特意设计“误会”、“信息差”这样的情节,大多数随机写出的故事都会是直来直去的叙事,所有人物都知道相同的信息。要写出需要读者理解不同人物认知差异的故事,需要作者有意识地设计这样的情节。就像我们在日常生活中的对话,大多是简单的信息传递,很少需要深入理解对方的认知状态。
这也解释了为什么在自然语言中,真正需要“换位思考”的内容相对较少。
未来如果要培养出真正懂得“换位思考”的AI,我们可能需要重新思考训练数据的收集方式。不是简单地收集更多数据,而是要有意识地增加那些包含认知差异、信息不对称的场景。就像设计一套专门培养同理心的教材,每个例子都经过精心挑选,目的明确。
或者,专门用意识流小说和茨威格的小说训练AI,也许效果不错。
至少通过这个研究,我们知道了人类还确实没被AI攻下的心理高地:真正的同理心与由此生发的情商。
但这可能也是AI自我学习的下一步目标了。
来源:36kr
|