人格问卷为何测不准大模型的真实行为

快速答案

给大模型做一份人类的人格或价值观问卷,几乎无法预测它在日常提问中怎么表现。在八个开源模型上,问卷自评(Likert 打分)与真实场景下生成概率所测得的行为,排序一致性仅为价值观(PVQ)0.31、大五人格(BFI)0.26(Spearman)。作为对照,同一问卷的两个版本之间一致性高达 0.74-0.77。问卷画像内部自洽,行为上却是空的——因为题目里漏出了明显的词汇线索,让模型答出「该有的样子」。

这项研究到底量了什么

首尔国立大学团队用两种方式给每个模型画像,再看两幅画像是否对得上。第一种是当下「LLM 人格」文献的标准玩法:把经过验证的人类量表丢给模型——40 题和 21 题的肖像价值观问卷(PVQ),44 题和 10 题的大五人格量表(BFI)——读它的 Likert 自评分。第二种贴近真实使用:抛出带价值取向的日常情境,读模型在不同倾向选项上的生成概率。如果问卷是有效的代理,两幅画像应当吻合。结果并不吻合。

四个发现,带数字

画像背离。 自评与生成之间的构念排序一致性为 PVQ 0.31、BFI 0.26;而同方法天花板(PVQ-40 对 PVQ-21、BFI-44 对 BFI-10)是 0.74 和 0.77。也就是说,你选哪种测法对结论的影响,比你想测的那个特质还大。
题目一致性蒸发。 在真实问卷上,同一构念的题目聚得很紧,eta 方为 0.526;换到真实情境的生成概率上,直接塌到 0.040。心理测量赖以成立的整齐因子结构,在行为里根本不存在。
模型认得出问卷,认不出真实情境。 让模型把题目映射回它所属的构念,在 PVQ/BFI 成熟题上 F1 达 0.69-0.83,在真实的「价值肖像」情境上只有 0.09。问卷措辞是送分题,真实生活不是。
人设只在纸面上夸张。 给模型套一个人口学人设,它的问卷答案会朝符合人类的方向偏移(方向匹配 62/80,p < 0.001),但真实生成行为几乎不动(40/80,p = 0.54,等于瞎猜)。

问卷为何会说谎

机制才是有意思的地方,而且原因不是「模型没有人格」。而是问卷题目自带显式词汇线索——比如「忠诚对他很重要」这种措辞——直接昭告正在测哪个特质。模型可以模式匹配出社会期许的答案,而背后并没有任何倾向在驱动它。把线索抽掉(真实用户提问就是如此),这个表面特质就不再能预测模型的选择。量表测的是「认线索」,只是披了张人格的皮。

为什么重要

越来越多工作给大模型打大五分、用问卷提示搭「可控人格」智能体、用 PVQ 审计模型「价值观」。这篇论文是一个直接证据:这些分数可以在人类意义上具备构念效度——自洽、可因子化、对人设有反应——却依然无法预测唯一要紧的东西:真实交互中的行为。我的判断是:如果你拿一份问卷去认证一个对齐过的模型「持有」某些价值观,你多半量到的是它对诱导性措辞的敏感度,而非它的实际行为。在真实提问上做行为探测更难,但更可信。

关键结果

自评对生成的排序一致性:PVQ 价值观 0.31,BFI 人格 0.26(Spearman)。
同问卷一致性(有效方法基线):0.74(PVQ-40 对 PVQ-21),0.77(BFI-44 对 BFI-10)。
构念内题目一致性:问卷 eta 方 0.526,真实提问生成 0.040(p < 0.01)。
构念识别 F1:成熟题 0.69-0.83,真实情境 0.09。
人设引导方向匹配:PVQ-40 为 62/80(p < 0.001),真实提问 40/80(p = 0.54)。
模型:Gemma 3(4B、27B)、Qwen 2.5(7B、72B)、Qwen 3(30B-A3B、235B-A22B)、GPT-OSS(20B、120B)。

局限与存疑

研究覆盖四个家族的八个开源模型;GPT-4 级、Claude、Gemini 等闭源前沿模型缺席,它们在任一探针下可能表现不同。「价值取向选项上的生成概率」本身也是一种构造出来的测量,不是原始的部署行为,所以它是比问卷更好的代理,但仍是代理。这项工作证明的是问卷无法预测行为,而不是大模型完全没有稳定倾向——一个真正基于行为的工具或许仍能测到些真东西。日常情境由作者自行整理,覆盖面与文化框架尚存疑问。它干净地立住的结论只有一条:一份漂亮的问卷得分,不能当作模型将如何行动的证据。

常见问题

大五人格这类问卷能用在大模型上吗?

作为行为预测器不能。这项研究发现 BFI 自评画像与真实提问行为的一致性仅 Spearman 0.26,而两个 BFI 版本之间是 0.77。分数内部自洽,却追踪不到模型实际做了什么。

心理问卷为什么测不准大模型的行为?

因为问卷题目带显式词汇线索,直接暗示在测哪个特质,模型于是挑出社会期许的答案(构念识别 F1 0.69-0.83)。真实用户提问没有这些线索(F1 0.09),表面特质便不再能预测行为。

这篇论文测了哪些大模型?

四个家族的八个开源模型:Gemma 3(4B、27B)、Qwen 2.5(7B、72B)、Qwen 3(30B-A3B 与 235B-A22B 的 MoE)、GPT-OSS(20B、120B)。

该用 PVQ 还是 BFI 来审计大模型的价值观?

要认证行为的话,两者都别用。论文显示,人设引导下问卷答案会朝人类方向偏移(62/80,p < 0.001),而真实生成几乎不动(40/80,p = 0.54)。请改用真实提问上的行为探测。

一句话:大模型一份干净的大五或价值观得分,量的是它对诱导措辞的敏感度,而非它的真实行为。阅读 arXiv 原文。