Meta建了一所学校，教AI“情商” [复制链接]

tayun

军衔等级：

少校

电梯直达

1^# 大中小

发表于 2024-12-24 16:12:10 |只看该作者 |倒序浏览

当你觉得AI不够好用时，很可能是因为它还不够“懂”你。

比如，当我们希望ChatGPT能够产出我们真正想要的东西时，仍然需要学习如何使用精确的提示词去提问，甚至一遍一遍地对它进行引导。

这一方面是交流细节的问题，另一方面也是因为它很难抓住我们真正的需求和认知状态。

比如当AI去做售货员，当购物的大妈抱怨“这家店太贵”时，一个有“情商”的AI明白顾客可能只是想要折扣，或者需要有人给予她下决心购物的支持；而一个没情商的AI则会单纯地评价产品的价格并回复：“从整个市场的价格参数看，我们的衣服价格在中位线之上。”

显然，这样卖不掉东西。

听话的关键在听“音”。AI想要能理解人，就要真正地理解每个人的心理和认知状态。这就是情商。

我们先做个测试：

在一场聚会上，你看到小明把苹果从桌子移到了冰箱里，而小红并不在场。有人问你“小红会去哪里找苹果？”

我们大多数人都能立即回答“桌子上”。这是因为我们知道小红并不知道苹果被移动了。

这种理解他人认知状态的能力，在心理学中被称为“心智理论”（Theory of Mind）。

“心智理论”能力就像是给AI装上了一个“社交理解器”：它能帮助AI理解“话语背后的意思”，而不是简单地按字面意思回应。

让AI从一个只会背诵标准答案的机器，变成一个真正懂得“察言观色”的交流伙伴。这样它才能更好地处理客服、教育、医疗等需要深入理解人类想法的场景，避免机械化的回应带来的尴尬和误解。

拥有“心智理论”，可能是让AI摆脱“知识库“、成为伙伴或者服务者的第一步。然而，“情商”这个人类从小就开始发展的基本能力，最先进的AI系统拥有吗？

即使最先进的AI，也缺乏情商

12月，Meta的研究团队发布了一篇名为《Explore Theory-of-Mind: Program-Guided Adversarial Data Generation for Theory of Mind Reasoning》的研究报告。

他们开发了一个叫ExploreToM的系统。它就像一个自动出题机器，利用A*Search算法去生成各种复杂的社交场景来测试AI的理解能力。

ExploreToM的目标是创造那些看似简单，实则需要深刻理解人类认知的场景。这些场景远比简单的“苹果在哪里”要复杂得多，并通过不断累加多个人物、多个房间、私密对话，甚至是秘密观察，和场景动作使得“故事”逐步复杂。

研究人员把故事按照其主要考察点分了三组不同复杂度的情况。

（绿色是简单的场景，添加橘色条件变难，加红色条件则最难）

第一层：基础认知追踪

“玛丽把钥匙放在厨房的抽屉里。当她出门后，约翰把钥匙移到了客厅的茶几上。玛丽回来后会去哪里找钥匙？”

这类问题测试AI是否理解：一个人的行为会基于他们所知道的信息，而不是客观事实。

第二层：信息传递理解

这里面相对于只是改变物体，人物间还进行了信息传递

Beth给苹果撒了盐后离开厨房，并发短信告诉Charles苹果已经撒了盐。此时Charles进入厨房，他知道苹果被撒了盐吗？

这类问题测试AI是否能理解：这其中发生的信息传递

第三层：非对称认知关系

这个最为复杂，因为这里面所有角色的认知是不对称的，有的人知道有些事，而别人并不知道。

“珍妮在实验室配制样本。汤姆通过监控摄像头看到了整个过程，但珍妮并不知道被观察。利兹进来后把样本转移到了另一个位置。当主管问起这个样本时，每个人会怎么回应？”

这类场景测试AI是否能理解：多人的不同认知状态、信息获取的间接性

不仅如此，他们还在这些场景里添加了陷阱作为变量，增加难度。

比如分心陷阱：

“史密斯医生在查看病历时，护士改变了药品位置。虽然医生在场，但他正在专注地打电话。”这是测试AI是否理解：物理在场不等于注意到变化。

误导性线索：

“安娜把蛋糕放在红盒子里。当比尔进来时，她说：'蛋糕在蓝盒子里'。比尔相信了她的话。”这考察AI是否能区分：客观事实、主观信念、故意误导

Meta的研究人员通过ExploreToM创建了超过3,000个独特的测试场景。每个场景都经过至少两位专家评审，确保其逻辑严密性和测试有效性。

研究团队选择了目前最具代表性的AI模型进行测试，包括OpenAI 的gpt-4o、Meta的Llama-3.1-70B-Inst以及Mixtral-8x7B-Inst。

结果让人大跌眼镜。对于含有某些元素的复杂问题，GPT-4o只获得了可怜的9%准确率，而Llama-3.1-70B准确率干脆只有0%。

实验数据显示，当故事中的动作数量从2个增加到4个时，所有测试模型的准确率都呈现显著下降趋势，GPT-4o的准确率从约0.45降至0.35，Llama-3.1-70B的准确率从0.35降至0.25，而Mistiral则一直在0.2左右徘徊，动作越复杂反而越上升，感觉全是靠蒙。

这说明，动作发生的越多，AI越记不住人物的认知状态更新。

令人意外的是，增加参与人数并未导致同样明显的性能下降。模型的准确率仅小幅下降了3-5个百分点。研究人员推测，这可能是因为在固定总动作数的情况下，增加参与人数实际上降低了每个人平均参与的动作数量，从而减轻了状态追踪的整体负担。

在动作类型的影响方面，数据显示不同类型的动作组合对模型表现产生了显著差异：在简单的位置移动任务中，GPT-4o可以达到55%的准确率，但一旦涉及状态更新或信息传递，准确率降至40%左右，特别是当引入非对称认知关系时，准确率进一步降至30%以下。其他模型表现出类似的降低趋势，例如Llama-3.1-70B在这三类任务中的准确率分别为45%、35%和25%。

情况越复杂，信息越不对称，AI越不知道这里的参与者都知道些什么。

以上，只能证明AI对基础信息和人际交流的理解已经非常有限了。

那再加上点尔虞我诈的复杂人心小元素，AI就更懵了。

虽然AI能相对较好的知道每个物体在哪儿时（40-50%的准确率），在涉及故意误导的场景中。比如

“玛丽把她的日记藏在床底下。当汤姆来到房间时，玛丽告诉他日记在书架上。汤姆相信了玛丽的话，然后离开了房间。”问题：汤姆认为日记在哪里？

准确率就降低至10-15%。

在更复杂的场景中，如增加观察者时，所有模型的准确率平均下降5-8个百分点。

在处理多重信念（例如“A认为B认为...”）时，准确率降至个位数

“妈妈把生日礼物藏在衣柜里。哥哥看到了，但假装不知道。妹妹问哥哥礼物在哪里，哥哥说不知道。妹妹去问爸爸，爸爸说礼物在车库里（他其实不知道礼物的真实位置）。”问题：妹妹认为哥哥认为礼物在哪里？/哥哥知道妹妹认为礼物在哪里吗？/妈妈知道妹妹从爸爸那里得到了错误信息吗？

当场景中加入较长时间跨度时（比如周一做了啥，周二做了什么），几乎所有模型的准确率都低于5%。

尤其值得注意的是，在处理“善意的谎言”场景时，模型表现比处理“恶意欺骗”场景更差，准确率相差约5-7个百分点，它根本读不懂这么细腻的情感。

人世套路深，AI也想回赛博村。

研究人员还深挖了一下，发现即使是最基础的状态追踪任务（就是搞清楚苹果到底在哪儿）中，模型的表现也令人担忧，GPT-4o、Llama-3.1 70B和Mixtral的准确率分别仅为37%、31%和26%。

他们作为旁观者，在最基础的物理状态追踪能力上都存在根本性不足。更别提真的理解人的认知状态、建立情商了。

所以现在别看那些GPT-4o和你对话非常丝滑，看起来相当拟人。但实际上AI现在就像一个只懂字面意思的“外国人”——它可以精确理解每个词，但根本抓不住对话的真实含义。

这些最先进的AI，都没啥情商。

既然没有，那就建所学校让他们学

其实人类的情商一般也是在社会化过程中慢慢培养出来的。那AI是不是也可以被培养呢？

沿着这个思路，研究人员把ExploreToM改造成了一所专门培养AI社交认知能力的工具。他们收集了将近8万个特制的“练习题”——包括ExploreToM生成的故事、问题和答案。用这些材料，他们开始“补课”训练Llama-3.1 8B模型。

训练效果证明了他们的猜测，经过训练的AI模型在多个标准测试中都有显著进步。在最具代表性的AI心智能力测试ToMi中，模型的分数提高了27分。

更令人兴奋的是，这个AI展现出了举一反三的能力。虽然训练时只用了2到4个人物的简单故事，但训练后的AI能够轻松处理更复杂的场景，比如有5个人物和更多互动的故事。这就像一个学生不仅学会了课本上的题目，还能解决更难的课外题。

研究团队还发现了一个有趣的现象：训练材料的质量比数量更重要。他们进行了一个精心设计的对照实验，创建了五组不同的训练数据集。这些数据集的大小相同，但其中需要“换位思考”的故事比例从0%逐步增加到100%。

结果表明，包含越多需要换位思考的故事，AI的表现就越好。

令人欣慰的是，这种特殊训练并没有影响AI的其他能力。就像补习数学的同时没有影响语文成绩一样，经过训练的AI在处理日常对话和回答常识性问题时，表现基本保持稳定。

经过这样系统的训练，AI在社交认知能力上取得了显著进步。在基础任务中，正确率达到了75-80%，相当于及格线以上的成绩。但是在更复杂的任务中，比如理解多重嵌套信念（确认A觉得B觉得......）这类问题时，表现仍然不够理想，正确率仅有30-35%。

但如果不进行训练，这些AI对这些问题的准确率可能仅为0。

解开AI缺乏情商之结

为什么AI都没有情商？

研究人员也对此做了一些探讨。问题还是出在训练数据上了。

过去的AI训练往往依赖于网络上现成的大量数据，但这些数据中真正需要换位思考的内容可能相对较少。

这就像是在写故事时，如果不特意设计“误会”、“信息差”这样的情节，大多数随机写出的故事都会是直来直去的叙事，所有人物都知道相同的信息。要写出需要读者理解不同人物认知差异的故事，需要作者有意识地设计这样的情节。就像我们在日常生活中的对话，大多是简单的信息传递，很少需要深入理解对方的认知状态。

这也解释了为什么在自然语言中，真正需要“换位思考”的内容相对较少。

未来如果要培养出真正懂得“换位思考”的AI，我们可能需要重新思考训练数据的收集方式。不是简单地收集更多数据，而是要有意识地增加那些包含认知差异、信息不对称的场景。就像设计一套专门培养同理心的教材，每个例子都经过精心挑选，目的明确。

或者，专门用意识流小说和茨威格的小说训练AI，也许效果不错。

至少通过这个研究，我们知道了人类还确实没被AI攻下的心理高地：真正的同理心与由此生发的情商。

但这可能也是AI自我学习的下一步目标了。

来源：36kr

作者近期主题帖

• AI创业项目Manus，引起了科技圈的一场大型辩论 (2025-03-08)
• 解构Manus AI：这是通用Agent革命，还是精巧缝合怪？ (2025-03-08)
• FP8训练新范式：减少40%显存占用，训练速度提高1.4倍 (2025-03-08)
• “3万张卡”、60亿投入后，DeepSeek发了5000亿红包 (2025-03-08)
• Manus官方账号被冻结，联合创始人回应来了 (2025-03-08)
• 把GPU本地存储利用起来！中美企业联手，打造超大规模AI存储解决方案 (2025-03-08)

本主题由版主或管理员于 2024-12-24 16:20 审核通过

0 举报本楼

本帖有 4 个回帖，您需要登录后才能浏览登录 | 注册

返回列表

版规|手机版|C114 ( 沪ICP备12002291号-1 )|联系我们 |网站地图

GMT+8, 2025-3-9 12:21 , Processed in 0.470616 second(s), 17 queries , Gzip On.

Discuz Licensed

回顶部

		自动登录	找回密码
密码			注册