瑞文智力测试到底测什么?一篇讲清楚
发布时间:2026.03.04
在智力评估领域,各类测验工具层出不穷,而瑞文智力测验(Raven's Progressive Matrices,简称 RPM)凭借其独特的非文字设计、跨文化适应性和精准的核心能力测量,成为全球心理学、教育学、人才选拔等领域应用最广泛的智力测验之一。这款由英国心理学家约翰・卡莱尔・瑞文(John Carlyle Raven)于 1936 年构思、1938 年首次出版的测验,跳出了语言文字和具体知识的束缚,专注于测量人类核心的认知推理能力,至今仍在各类智力评估场景中发挥着关键作用。本文将从测验的核心测量目标、理论根基、版本体系、结构施测、心理测量学特性、实际应用场景,以及优势与局限性等方面,全面解析瑞文智力测试的测量本质,让读者对其形成系统、清晰的认知。

一、瑞文智力测试的核心测量目标:聚焦流体智力与抽象推理
瑞文智力测验的核心定位是非文字智力测验,其主要测量的是个体的抽象推理能力和流体智力(Fluid Intelligence),核心目标是评估人们在不依赖语言、文化背景或先前知识的情况下,通过逻辑分析、模式识别和问题解决来理解复杂关系的能力,也是对斯皮尔曼(Spearman)提出的 “g” 因素(一般智力)的精准测量,尤其聚焦于 “g” 因素中清晰思考和理解复杂性的演绎能力(eductive ability),即面对新异信息时,赋予混乱以意义、形成新概念的能力。
具体而言,瑞文智力测试所测量的核心能力可分为三大维度,且所有能力的考察均通过纯图形矩阵的形式展开,不涉及任何文字表述和具体学科知识:
抽象思维能力:测验以缺失一块的图案矩阵为载体,要求被试识别图案中形状、颜色、数量、方向等维度的变化规律,并从选项中选出最合适的答案,整个过程纯粹依赖对抽象模式的观察和理解,是对个体抽象认知能力的直接考察。
逻辑推理能力:被试需要通过观察图形序列的内在逻辑,比如数量的递增递减、图形的对称旋转、元素的叠加消减等,推导出缺失部分的特征,这一过程充分体现了个体对事物间 “关系” 的分析、归纳和演绎能力。
问题解决能力:面对复杂或新颖的图形矩阵时,被试需要主动运用排除法、试错法等策略性思维,逐步缩小答案范围,找到唯一符合规律的解,这一过程反映的是个体解决未知问题、应对陌生情境的核心能力。
从智力分类来看,瑞文测验是测量流体智力的经典工具。流体智力与依赖经验和记忆的 “晶体智力” 相对,指的是在不依赖已有知识的情况下,处理新问题、理解新关系的能力,这种能力主要由先天的生理和认知潜能决定,是个体进行一切认知活动的基础。也正因如此,瑞文测验能够最大程度剥离后天知识积累的干扰,反映个体最核心的智力潜能。
二、瑞文智力测试的理论根基:智力二因素论与流体晶体智力理论
瑞文智力测验的编制并非凭空设计,而是建立在两大经典智力理论的基础之上,这也是其测量逻辑具有科学性和严谨性的核心原因。
斯皮尔曼的智力二因素论:这是瑞文测验最核心的理论依据。该理论认为,人类的智力由一般因素(G 因素)和特殊因素(S 因素)组成,其中 G 因素是贯穿于所有智力活动的核心通用能力,决定了个体整体智力水平的高低,且不受后天教育、文化背景的显著影响;S 因素则是与特定领域、特定任务相关的特殊能力,如音乐、绘画、数学运算等,需通过后天训练形成。瑞文编制测验的核心目标,就是剥离 S 因素的干扰,纯粹测量 G 因素的核心成分,因此摒弃了语言、数学等与 S 因素高度相关的内容,选择了最能反映 G 因素的图形推理形式。
卡特尔的流体智力与晶体智力理论:该理论将智力分为流体智力和晶体智力,瑞文测验的测量逻辑与流体智力的定义高度契合。测验通过全新的、陌生的图形问题,考察个体不依赖已有知识的抽象推理能力,完美匹配了流体智力 “处理新问题、理解新关系” 的核心特征,也正因如此,瑞文测验成为全球范围内测量流体智力的标杆工具。
三、瑞文智力测试的版本体系:适配不同人群的分层设计
瑞文测验并非单一工具,而是一个不断发展的测验家族,经过数十年的演变,形成了多个适配不同年龄、不同智力水平人群的版本,且后续还推出了扩展版、平行版和简版,以满足不同的施测需求。各核心版本的设计目标、结构和适用人群存在明确差异,具体如下:
(一)标准渐进矩阵 (Standard Progressive Matrices, SPM)
SPM 是瑞文测验的最初形式,1938 年首次出版,也是目前应用最广泛的版本。它包含 A、B、C、D、E 五个单元,每个单元 12 个项目,共计 60 个黑白图形项目,项目难度在单元内部和单元之间从 A 到 E 逐步递增,要求被试运用越来越高的认知能力编码和分析信息。SPM 的设计目标是评估一般人群的智力,适用年龄范围为 6 岁至成人,主要考察个体的清晰思考能力以及空间、逻辑技能。
(二)彩色渐进矩阵 (Cpored Progressive Matrices, CPM)
CPM 专为年幼儿童(通常 5 至 11 岁)、老年人以及有智力或身体障碍的个体设计,在 SPM 的 A、B 单元之间插入了新的 Ab 单元,共计 36 个项目。为增强视觉吸引力、激发被试兴趣,大多数项目采用彩色背景,仅 B 单元最后几个项目保留黑白形式,方便被试表现超出预期时,顺利过渡到 SPM 的 C、D、E 单元。CPM 难度相对简单,更侧重于评估个体的观察技能和模式完成能力。
(三)高级渐进矩阵 (Advanced Progressive Matrices, APM)
APM 针对智力水平高于平均水平的青少年和成人设计,包含单元 I(12 个项目)和单元 II(36 个项目),共计 48 个黑白项目,整体难度显著高于 SPM,且难度逐级递增,旨在更好地区分高能力个体,适用于大学生、科研人员等群体的智力评估。
(四)后续衍生版本
除了三大核心版本,为应对实际施测中的各类问题,瑞文测验还推出了多种衍生版本:
SPM Plus (SPM+):1998 年发布,作为 SPM 的扩展形式,增加了更难的项目,提高了对能力较强的青少年和年轻成人的区分度;
平行版本:1998 年针对 SPM 和 CPM 推出,解决了原始版本因广泛使用而 “过于知名” 导致的分数膨胀问题,且项目平均难度与经典版本保持一致;
简版:包括 12 项、18 项等形式,针对完整版施测时间较长的问题设计,适用于时间受限的场景,但简版的信度通常低于完整版,是测量精度和施测效率的折中选择。
瑞文测验的版本演变,反映了测验发展过程中理论目标、实际应用需求与心理测量学挑战的动态平衡,从最初的普适性设计,到针对低龄、高龄、高智力等特定群体的细分版本,再到应对测验曝光、时间限制的衍生版本,让测验的适用范围不断扩大,更能贴合不同场景的评估需求。
四、瑞文智力测试的结构、施测与计分:标准化的设计与实施流程
瑞文测验的设计和实施严格遵循标准化原则,从题目设计到施测流程,再到计分解释,都有明确的规范,这是保证测验结果有效性和客观性的重要前提。
(一)核心设计原则:视觉模式与渐进难度
瑞文测验的所有项目均由包含缺失部分的视觉几何图形矩阵构成,矩阵形式包括 2x2、3x3、4x4 或 6x6 等,被试的核心任务是从 6 个或 8 个选项中,选择能正确填补图案缺失部分的图形。测验最核心的设计原则是渐进难度,不仅每个单元内部的题目难度逐步提升,跨单元的难度也呈阶梯式增长,这种设计能评估广泛的能力范围,让大多数被试在初始阶段能够顺利作答,同时为高能力者提供足够的挑战,从心理测量学角度,能让测验项目在能力连续体的不同点上有效区分被试。
此外,测验项目的设计还力求精确且具有一定的美感,以维持被试的答题兴趣,避免因题目枯燥导致的作答动力不足;图形背后的规律设计涵盖元素加减、行列一致性、数量递增、空间旋转等多种类型,全面考察个体的模式识别和关系推理能力。
(二)标准化的施测指南
瑞文测验的施测形式灵活,既可以对个体单独施测,也可以对团体进行施测,且非文字形式大幅减少了语言偏见,施测指导语简单明了,易于被试理解。施测时间因版本而异:SPM 通常无严格限时或设置较宽松的时间限制(完全作答约 40 分钟),简版则能显著缩短施测时间(15-20 分钟);随着技术发展,在线施测成为可能,便于大规模、无监督的远程测试,但也对测验安全性和标准化环境控制提出了新的挑战。
(三)科学的计分与结果解释
瑞文测验的计分以被试在规定时间内答对的项目数量为基础,先得出原始分数,再参照对应常模(Norms)将原始分数转换为具有相对意义的分数,常模会根据年龄、地域等因素进行划分,赋予分数具体的智力水平参考。例如,中国修订版瑞文测验就建立了基于年龄的本土化常模,让分数解释更贴合中国人群的特征。
分数解释环节需要保持谨慎,专业的施测者会向被试说明,测验分数只是对其智力水平的 “最佳估计”,同时解释分数的含义和适用范围,考虑分数可能带来的心理影响,并鼓励被试参与到分数解释的过程中。值得注意的是,在线无监督施测可能因被试受干扰、使用辅助工具等因素,影响分数的有效性,其结果与传统纸笔测验的可比性仍需进一步验证。
五、瑞文智力测试的心理测量学特性:高信度与高效度的科学佐证
评估一款心理测验的质量,信度和效度是两大核心指标,而瑞文智力测验经过数十年的全球研究和验证,展现出良好的心理测量学特性,这也是其能长期广泛应用的重要原因。
(一)信度:结果稳定且一致
信度反映测验结果的稳定性和一致性,瑞文测验的完整版在重测信度和内部一致性信度上均表现优异:瑞文 1938 年的最初研究就报告了较高的重测信度(相关系数 r=0.89)和分半信度(r=0.91);针对葡萄牙样本的 SPM 研究发现,测验内部一致性系数(Cronbach's alpha)达 0.94,4.5 个月后的重测信度 r=0.82;利比亚学生样本的 APM 研究、马来西亚儿童样本的 RCPM 研究,也均报告了较强的重测信度。
唯一的例外是简版测验,由于题目数量减少,其信度通常低于完整版,如 12 项 APM 简版的重测信度约在 0.65 至 0.69 之间,而 18 项 APM 简版的开发,就是为了在缩短施测时间的同时,尽可能保持接近原版的信度。
(二)效度:精准测量目标构念
效度涉及测验是否能有效测量其声称的构念,瑞文测验在结构效度、聚合效度、效标关联效度和区分效度上均有充分的研究证据支撑:
结构效度:多项研究证实,瑞文测验与比奈 - 西蒙量表、韦氏智力量表等经典智力测验高度相关,因素分析通常显示存在一个强的一般因素('g'),与测验的理论目标高度契合;
聚合效度:瑞文测验得分与视觉空间能力、记忆测验得分呈中到高度正相关,与另一非言语智力测验 TONI-4 也具有良好的聚合效度,APM 简版得分还与韦氏成人智力量表的知觉推理指数中高度相关;
效标关联效度:瑞文测验能有效预测需要快速学习、问题解决和抽象推理能力的岗位绩效,曾被用于预测军队训练的成功率,与人格测验结合使用时,能预测超过 70% 的工作绩效;
区分效度:CPM 已被证明能够有效区分出患有脑瘫儿童的认知功能障碍,在临床认知评估中具有明确的区分价值。
(三)项目水平与因素结构的精细化分析
借助项目反应理论(IRT)等先进的心理测量学方法,研究者对瑞文测验的项目难度、区分度、猜测行为等进行了精细化分析:测验项目的难度和区分度会因版本和样本存在差异,部分项目需根据目标人群进行重新排序;多项选择题的形式使得被试存在猜测行为,尤其在 CPM 的 Ab 单元,知情猜测(排除部分错误选项后的猜测)更为普遍,这一发现能帮助施测者更准确地估计被试的真实能力水平。
同时,因素分析结果持续证实,瑞文测验是单维结构,与斯皮尔曼的 “g” 因素紧密相关,被广泛认为是测量 “g” 因素的最佳工具之一,其测量的核心是 “g” 因素中的演绎能力,这也是瑞文测验被解读为一般认知能力测量工具的核心依据。
(四)人口统计学变量的影响
瑞文测验分数会受到年龄、性别、教育程度、地域等人口统计学变量的影响,但这种影响在不同样本和文化背景中存在差异:年龄方面,分数通常随年龄增长而下降;教育程度方面,分数与教育水平呈正相关,这一发现也让研究者意识到,瑞文测验并非完全独立于后天教育,流体智力和晶体智力的界限在实践中可能比理论上更模糊;性别方面,葡萄牙样本发现男性分数略高,而中国城市样本中,除 40-49 岁年龄组外,其他年龄组均无显著性别差异,这表明性别差异并非普遍的生物学定论,可能受文化或样本特征的调节。
六、瑞文智力测试的跨领域应用:从教育选拔到临床研究的多元场景
瑞文测验凭借非文字性、客观性、广泛适用性等特点,在全球范围内的教育、职业、临床、跨文化研究等多个领域得到了深度应用,成为跨场景的核心智力评估工具,其应用价值也随着版本的完善不断提升。
(一)教育领域:学生评估与教育安置
在教育领域,瑞文测验被广泛用于学生的智力评估,核心应用包括识别资优儿童、筛查学习障碍(如特定性计算障碍),以及为教育安置提供科学依据。由于其不依赖语言和具体知识,能更客观地反映学生的核心推理潜能,尤其适合评估语言学习困难或跨文化背景的学生,同时也能作为评估学生数学能力、科学推理能力的辅助指标,因为瑞文成绩与学术成就呈中高度正相关(r≈0.5–0.7)。
(二)职业领域:人才选拔与招聘评估
在职业领域,瑞文测验是人员选拔和招聘的重要工具,根据岗位难度选择不同版本:SPM 适用于入门级候选人的评估,APM 则适用于管理和研究生水平的职位选拔。它能有效衡量候选人的学习能力、问题解决能力,评估其对岗位的适应性,尤其适合跨地域招聘,能大幅减少语言偏见,降低招聘失误的风险和成本。将瑞文测验与人格测验结合使用,还能更全面地筛选优秀的团队成员和未来的领导者。
(三)临床领域:认知评估与病理研究
在临床领域,瑞文测验被用于各类认知功能评估和神经发育障碍、神经系统疾病的研究:例如,研究发现自闭症谱系障碍(ASD)个体在瑞文测验上的得分可能高于韦氏智力量表,因为瑞文测验能最大限度减少对其薄弱的语言、社交沟通技能的要求,更好地捕捉其在模式识别、系统化思维方面的优势;同时,瑞文测验也被用于评估肝豆状核变性患者、脑损伤患者的认知功能,以及脑损伤后认知恢复的进程,是临床神经心理学评估的重要工具。
(四)研究领域:跨文化研究与弗林效应验证
瑞文测验的非文字特性使其成为跨文化研究的理想工具,被用于全球各种不同的文化群体的智力比较研究,极大地促进了跨文化认知心理学的发展。尽管其 “文化公平性” 存在争议,但相较于文字测验,它的文化负载更低,能让使用不同语言但处于同一教育体系下的儿童进行公平比较。
同时,瑞文测验的长期大规模应用,为 “弗林效应” 的发现和验证提供了关键证据。弗林效应指 IQ 分数跨代际增长(每十年约 3-4 个 IQ 分数点),而全球范围内的瑞文测验数据显示,测验分数随时间显著提高,成为揭示社会层面认知能力变迁的重要依据,也让瑞文测验超越了个体评估的范畴,成为社会科学研究的重要工具。
七、瑞文智力测试的本土化发展:1985/1986 年 SPM 中国城市版修订
瑞文测验在全球的广泛应用,离不开各国的本土化修订和标准化工作,其中 1985-1986 年由张厚粲教授和王晓平教授领导的瑞文标准推理测验中国城市版修订,是中国心理测量学发展史上的重要事件,为瑞文测验在中国的科学应用奠定了坚实基础。
此次修订工作由全国 17 家单位协作完成,直接动因是当时中国科研和实际工作对团体智力测验的迫切需求。修订过程严格遵循标准化原则,以 1982 年全国人口普查资料为依据,采用分层抽样方法,考虑各地区人口分布和各类人员比例,共纳入 5108 名 5 岁半至 70 岁以上的被试,最终建立了 1986 年中国城市常模。
此次修订的成果显著,经检验,修订后的 SPM 各项技术指标达到或超过了国外同类研究的水平,展现出良好的信度和效度;同时发现,中国城市样本中除 40-49 岁年龄组外,其他各年龄组均无显著性别差异,这一发现与国外部分研究形成对比,为研究流体智力的性别差异提供了本土化数据。修订后的中国城市版 SPM 成为国内常用的智力测验工具之一,并被纳入多个儿童评估系统,其成功也证明了在迥异的文化背景下,对复杂心理测量工具进行严谨改编和验证的可行性,为其他心理测验的本土化工作提供了范例。
八、瑞文智力测试的优势、局限性与文化考量
作为一款经典的智力测验,瑞文智力测试有其独特的核心优势,但也存在固有的局限性,而围绕其 “文化公平性” 的争论,也让我们对其应用有了更理性的认知。
(一)核心优势
非文字性,减少语言偏见:这是瑞文测验最显著的优势,彻底摒弃语言文字后,大幅减少了与被试语言能力相关的偏见,适用于语言背景多样化的人群、语言障碍者(如听障)、文盲以及跨文化群体,是目前跨文化智力评估的最优工具之一。
客观性强,评分标准清晰:测验答案唯一,计分仅以答对题目数量为基础,减少了施测者的主观因素影响,结果更具客观性和可比性。
施测简便,适用范围广:施测指导语简单,可个体施测也可团体施测,适配 6 岁以上普通人群、低龄儿童、老年人、高智力人群等不同群体,涵盖教育、职业、临床等多个场景,应用灵活性高。
测量核心智力,预测性强:聚焦于流体智力和一般智力因素,能客观反映个体的核心推理潜能,对学术成就、岗位绩效等具有良好的预测性,是评估个体学习能力和问题解决能力的有效指标。
(二)固有局限性
测量范围单一,难以全面评估智力:瑞文测验主要测量流体智力和演绎能力,无法全面捕捉智力的其他重要方面,如实用智力、创造力、晶体智力(已获得的知识和技能),也不评估记忆力、语言能力、社交能力等,因此不能作为智力评估的唯一工具。
完整版施测时间长,简版信度降低:APM 等完整版测验施测时间约 40 分钟,容易导致被试疲劳,在时间受限的场景中难以实施;而简版测验虽缩短了时间,却以牺牲信度为代价,存在测量精度的折损。
存在猜测因素,影响分数准确性:多项选择题的形式让被试可通过猜测得分,尤其低能力个体的知情猜测,可能导致分数虚高,难以准确反映其真实能力水平。
存在地板 / 天花板效应:特定版本对极端能力人群的区分度不足,如 APM 对低智力分组可能区分不佳,SPM 对高智力分组存在天花板效应,需借助 SPM+、CPM 等专用版本弥补。
(三)文化公平性的争论
瑞文测验常被描述为 “文化公平” 或 “文化缩减” 测验,但这一说法一直备受争议。尽管非文字形式减少了文化负载,但测验表现仍可能受到个体对抽象模式的熟悉程度、应试技巧、所处教育体系的影响,研究也证实,教育程度和社会经济因素对瑞文测验分数有显著影响。
对于未接触过正规教育或类似思维训练的人群来说,“在模式中寻找缺失部分” 这一任务概念并非自然存在,可能存在理解障碍;而著名学者尼斯贝特也曾批评,在非洲半文盲或不识字的人群中使用西方开发的瑞文测验,可能得出有偏差的结论。因此,瑞文测验并非 “文化无关”,其更准确的定位是文化缩减,它减少了语言障碍,但并未消除所有文化影响。
九、瑞文智力测试的应用启示与未来发展
瑞文渐进矩阵作为一项历史悠久且影响深远的心理测量工具,在认知评估领域的地位不可替代,其核心价值在于为我们提供了一种客观、高效的流体智力测量方式,跳出了语言和文化的束缚,让智力评估的公平性和广泛性得到了大幅提升。但同时,我们也需要理性看待其局限性,科学、规范地使用这款工具。
在实际应用中,瑞文测验的使用需把握三大核心原则:一是精准选版,根据评估目的和被试特征(年龄、能力水平、文化背景)选择最合适的版本,避免用 SPM 评估高智力人群、用 APM 评估低龄儿童等情况;二是重视本土常模,在分数解释时,必须使用恰当的本土化常模,避免直接套用国外常模导致的结果失真,同时充分考虑被试的教育背景、社会经济地位等影响因素;三是多元整合评估,将瑞文测验结果与韦氏智力量表、言语理解测验、记忆测验等其他认知能力测验,以及人格、动机、环境支持等非认知因素结合,形成对个体的整体、准确认知,不可仅凭瑞文分数判断个体的智力水平。
从未来发展来看,瑞文测验仍需不断适应新的施测环境和需求:一方面,需继续运用项目反应理论(IRT)等先进模型,深入分析项目功能,处理猜测、粗心作答等测量误差,提升能力估计的精准性;另一方面,针对在线施测带来的效度和安全性问题,需要开展更多研究,建立在线施测的标准化规范,保证线上线下结果的可比性;同时,还需进一步推动本土化修订和常模更新,让测验更贴合不同文化、不同时代人群的特征。
瑞文智力测试的持久影响,不仅在于其作为测量工具的实用性,更在于它深刻影响了我们对智力的概念化和测量方式,推动了对流体与晶体智力的区分,以及对文化缩减评估方法的追求。它的发展历程也提醒我们,任何心理测验都不是完美的,只有结合理论发展和实际需求不断完善,同时科学、理性地使用,才能让其在智力评估、人才选拔、临床研究等领域发挥最大价值。而瑞文测验所聚焦的抽象推理、模式识别、问题解决等流体智力能力,也是教育培养的核心方向,这一核心认知能力的提升,才是个体应对未知挑战、实现终身发展的根本保障。
