各位网上冲浪高手对各式各样的“心理测试”一定不会陌生,比如用几个非常生活化的问题来测出你最适合哪个职业的:

测一下你的性格是什么样的:

还有你最像哪个人物的:

从30年前朴素的杂志花边测试专栏,到如今精美的 H5 页面乃至交互视频,在描述你自己的相关领域,这些测试是真正的国民级产品。

虽然,它们不准。

当然不准啦……要是只用几道简简单单的题目,甚至只要输入名字/生日就能知道你的性格,那人生未免也太简单了吧?!

用心理学的话来说,就是这些题目的效度太低,不够有效。

如果你想要知道一个人的体重,却拿一把卷尺量了他的身高,然后告诉自己,这个人的体重就是 1.70 米,这就是一个低效度的测量。

如果你想知道自己的性格,回答的问题却是“你最喜欢哪种颜色”,甚至是你的名字或是生日,这也是一个低效度的测量,和用尺子测体重没有太大区别。

编制形式类似、但更加准确可信的题目,来帮助人们认真地了解自己,并为其他的研究者们提供便利的工具,这就是心理测量学家要做的工作了。

开发专业量表的人都在干啥

开发一个专业心理量表的过程,大概是这样的:

首先,我们需要先确定构念。也就是说,我们想要测量的究竟是一个什么东西。

比如说我们想知道「一个人有多想要破坏现有的秩序,带来混乱,以获得愉悦感」,我们就要用一个名词去概括这个特质,并且给出一个定义,例如混乱需求(Need for Chaos)。

在确定了构念后,我们就需要编制条目,也就是说哪些描述能够对应上我们想要测量的这个概念,例如混乱需求的条目就有“我认为我们的社会制度烂到极点了”、“有时候我真想毁掉漂亮的东西”。

编制条目有很多种方式,大致可以分为借鉴已有量表和自编条目两种。

借鉴前人编制的量表是较为简单的做法,但如果你想要测量的是全新的构念,像是混乱需求前人基本没有做过,那就只能自己考虑后一种,自己编制了。

自编条目的来源有很多种,比如通过搜索关键词找到相关的描述,请专家写下他们对此概念的理解,或者是找普通人做结构化/半结构化的访谈,综合上述的文案资料后,就能够得到初版的题本。

但这版题本很可能是不够科学的,只是说编制者主观上认为这些描述和他想要研究的概念是一样的,但实际可能并非如此。

为了解决这个问题,就需要研究者去找很多人(从数百到数千不等)回答这个初版的问卷,使用他们的作答数据来分析题目质量,删掉那些质量不好的题目。

并且,题目确定之后还要再找一群人作答,来作为分数的参考。

分数的参考?这又是什么意思呢?

原始分数与常模分数

分数的参考其实就是通过收上来的数据,计算出均值和标准差。

一个人的得分离均值越远,就说明他的排名越高或越低,将这个差值与反映数据离散程度的标准差一比较,我们就能确定一个人相对排名的高低。

因此使用这两个指标,测量学家就能将某一位作答者原始分转换为可以反映相对排名的标准分。

以一道最标准的测量宜人性的题目为例,在看到“我心肠柔软,有同情心”这个描述后,作答者需要从“非常不同意”至“非常同意”的 5 个选项中选择一个选项,而这些选项在后台对应着 1-5 分。

在将作答者回答的所有测量宜人性的题目上的得分相加后,我们就能够得到这个人在宜人性上的原始得分。

原始分计算非常简单,但它也会有一些缺点,比如说很难跨维度比较。比如说宜人性满分50分你拿了38分,尽责性满分50分你拿了25分,就代表你宜人性一定高于尽责性吗?

不一定,因为题目都不一样,是不能在同一尺度下比较的。

可以比较的其实是排名,像是语文的120分和数学的130分我们也不好比较,但如果语文是年级前十,数学的年级排名只有一百多位,那么我们自然可以说语文比数学考得好。

类似地,如果将人格问卷的原始分转换成常模,进而转换成排名,也就是你的宜人性高于70%的人,你的尽责性只高于20%的人,那么就能更好地帮助拿到报告的人了解自身性格究竟是怎样的。

当然,这样的前提是人们要认真答题,根据自己的实际情况选择回答,但现实情况就是,大部分心理测量的问卷都是主观报告的,作答者随意填,或者掩饰作答怎么办?比如说去医院心理门诊就诊,医生让填量表,一个人都往坏里填,他能装病吗?

不认真作答的检测方式

对于装病这个情况来说,量表只是一个诊断的参考工具,医生或者说咨询师往往会当面与来访患者访谈,如果访谈中患者的表现和量表差距甚远,医生是能够凭借经验去辨别出这个人究竟有无精神方面困扰以及困扰的强烈程度的。

但在无法面谈的大规模施测问卷里,怎么把随便作答的人挑出来,也是心理测量学家需要去解决的。

解决办法分为两种,一种是在事前措施,例如降低任务难度,比如说尽量减少题目数量,你一口气丢给人两三百道题,大家看到就怵自然不会太认真地答。

或者是添加测谎题,也就是显而易见有正确答案的题目,例如“请在本题选择非常不同意”、“我的生日是2月31日”、“我认真回答了上述问题”等,让参与者选择有多同意这些描述,如果在这些题目上的作答表现比较糟糕,那么我们就更容易把这个人标记为不认真作答的人。

第二种是事后分析,可以通过分析一个人的作答模式来把那些不认真作答的人筛除,比如整体作答时间过短的,大部分题目选择同一个答案的,正向题和反向题都选择了“非常同意”的等等,这些都可以通过一些数据统计的方法计算不认真作答的指标。

当然,上述这些都是自陈量表(自己给自己打分)的弊端,也就是让作答者自行回答关于他们在各种情况下的行为或感受等问题,归根结底较为主观,其实心理测量学远不止编制这些自陈量表。

不止是答题,还有很多测量方式

例如让被试进鬼屋游玩,研究者既让被试从鬼屋出来后用自陈量表评定自己每次遇上惊吓事件的恐惧和享受程度,还收集了被试全程的心率数据,以及通过景点内的闭路监视器实时记录了参与者的反应,并让独立的编码员给他们的情绪反应打分[1]。

在这里心理学家就用了多种方式来交叉测量了鬼屋中的情绪反应,尽力做到让数据丰富多样。

除此之外,还有利用大数据的测量方式,例如——

通过在 FaceBook 上的点赞进而推断用户的性格[2];

通过提取游戏过程中计算机所记录的日志文件,进而测量受测者的元认知水平[3];

或是使用文本挖掘和机器学习的方法评估中国社交媒体中的自杀风险和情绪困扰[4]。

最后

总之,心理测量学家们一直在“量化人心”的道路上不停地努力着,心理测量的进步不仅能够为心理学的其他方向服务,还在各种实践场景有着广泛的应用价值,例如辅助临床心理问题的筛查,帮助企业测评员工的能力和心理素质,协助教育机关了解学生的综合素质等。

心理测量帮助人类从更高、更多的层面去认识自己的心理与行为,进而看到发展的可能。

作为心理学专业的学生,虽然我们很清楚网上的测试并不具有信效度,但还是会乐此不彼去进行测试和转发,娱乐和学习还是分得很清楚的。