承认吧，心理学就是很难：阻碍其成为硬科学的三大诅咒-噬脐莫及网

本文主张，承认吧这场理论危机的心理学难根本原因在于：发展良好的心理学理论极其困难，而理解这种困难缘何而起，阻碍诅咒是其成走出理论危机的关键一步。基于当代科学哲学，为硬我们讨论了造成这一困难的科学三个核心原因：缺乏足以对可能理论施加强约束的稳健现象，心理学构念的承认吧效度问题，以及在心理变量之间发现因果关系所面临的心理学难障碍。文章最后，阻碍诅咒我们提出了若干建议，其成讨论如何推动心理学走出理论危机。为硬

关键词：理论；现象；稳健性；效度；因果关系

▷Eronen,科学 Markus I., and Laura F. Bringmann. "The theory crisis in psychology: How to move forward." Perspectives on Psychological Science 16.4 (2021): 779-788.

近年来，越来越多作者开始关注心理学理论基础的承认吧脆弱性（e.g., Fiedler, 2017; Gigerenzer, 2010; Klein, 2014; Muthukrishna & Henrich, 2019; Oberauer & Lewandowsky, 2019; Reber, 2016; Robinaugh et al., 2020; van Rooij, 2019）。相关观点认为，心理学难心理学理论整体质量不高，阻碍诅咒心理学研究应将重心更多转向发展更好的理论，而不是仅仅改进统计技术和研究实践、或单纯增加重复性研究的数量。换言之，相较于已广受关注的“重复性危机”，我们面对的是一场更为根本的“理论危机”（Muthukrishna & Henrich, 2019; Oberauer & Lewandowsky, 2019; Reber, 2016）。

这一观点当然并非新说，保罗·米尔（Paul Meehl）在其职业生涯中多次强调这一问题（e.g., Meehl, 1967, 1978, 1990）。米尔指出，心理学家热衷于提出新理论，但这些理论并未带来真正累积性的理论进展，而是“来了又走”：理论既没有被明确证伪，也很少真正进入公认的知识体系，而是长期处于一种“模糊存在”的状态，最终悄然被抛弃或遗忘。他以“抱负水平理论”和“风险转移理论”为例，这两种理论在 20 世纪 30 年代和 60 年代曾备受追捧，如今却基本无人问津。

自米尔的经典论文发表以来的四十余年间，理论在心理学中的地位和作用并未发生根本改变。例如，《行为改变理论 ABC》（ABC of Behavior Change Theories）一书，仅在行为改变这一子领域就列出了 83 种理论，从自我调节与自我效能理论，到生态模型（Michie et al., 2014）。可以相当有把握地说，这些理论中，没有任何一个是被普遍接受、或被决定性地证伪的。一个更具体的例子是自我损耗理论（Baumeister et al., 1998, 2000）。在经历一段备受追捧的时期后，该理论在近些年遭到广泛质疑，目前尚无明确的证据能够决定性地支持或否定它（Friese et al., 2019）。

对心理学理论缺乏进展的一种常见解释是：心理学理论往往表述得过于模糊或抽象，难以对其进行可证伪或可检验的推断（Meehl, 1978, 1990）。此外，即便已经发现某一理论存在缺陷、无法解释部分现象，心理学研究者仍常常继续沿用它，只是更强调该理论过去的成功之处（例如经典条件反射中的 Rescorla-Wagner 模型；Miller et al., 1995）。这就导致大量共存且相互重叠的心理学理论：研究者普遍知道它们存在缺陷，却从未被真正、彻底地证伪（Meehl, 1990）。因此，在近期有关理论危机的讨论中，一个重要主题是：应通过使理论更加形式化与精确化，或者通过教授心理学家如何构建更好的理论，来改进心理学理论（e.g.,Gigerenzer, 2010; Muthukrishna & Henrich, 2019; Oberauer & Lewandowsky, 2019; van Rooij & Baggio, 2021）。

我们认为，这些努力是重要且值得肯定的。然而，本文采取了不同的路径。我们主张，问题的核心在于：发展出好的心理学理论本身就极其困难，而要在理论危机中取得实质性进展，首要一步就是理解这种困难究竟来自何处。换言之，问题并不（仅仅）在于心理学家没有在理论建构上投入足够的精力，或缺乏理论建构的技巧，而在于由于研究对象本身的特性，构建良好的心理学理论面临着结构性的障碍。为了阐释并分析这些障碍，我们借鉴了当代科学哲学的相关成果。

在这一点上，我们延续了米尔的思路：在本专刊所聚焦的那篇文章中（Meehl, 1978），他列举了一系列使人类心理学难以进行科学研究的根本困难。不过，米尔依赖的是当时的科学哲学，而此后数十年中，关于数据、本体与理论、因果性的性质等方面出现了许多新的哲学发展，这些发展与当前的理论危机高度相关。本文正是基于这些最新成果，提出发展良好心理学理论之所以如此困难的三个关键原因：稳健现象对理论的约束不足，心理学构念的效度问题，以及在心理变量之间建立因果关系时面临的困难。

本文作者· Author

Markus I. Eronen

格罗宁根大学哲学学院理论哲学系，副教授

科学哲学家，期刊Theory & Psychology 副主编，以及哲学与科学硕士项目的协调员。目前的研究主题包括（1）因果发现和向下因果关系，（2）理论在心理学中的作用，（3）层级组织的层次和本质。

本文作者· Author

Laura F. Bringmann

格兰格罗宁根大学行为与社会科学学院心理计量与统计系，副教授

导师是Francis Tuerlinckx 和 Denny Borsboom。研究兴趣包括时间序列分析、动态网络、临床实践中的经验取样法（ESM）以及心理学哲学。此外，她与 Eiko Fried 和 Dominique Maciejewski 共同发起了“测量新潮”（MITNB）研究小组。

实验室地址：

现象作为对理论的约束

在本节中，我们主张：科学研究中的现象会对理论的发展形成约束，但在心理科学中，缺乏足够稳健的现象（robust phenomena）来提供这样的约束。首先，在科学哲学中，区分“数据”、“现象”与“理论”已相当常见（Bogen & Woodward, 1988; Haig, 2013; Woodward, 1989）。数据是基于实验或资料收集得到的原始观察结果——在心理科学中，可以是问卷作答、行为记录等。数据为现象提供证据，而现象则是世界中相对稳定的特征：例如，不同斯特鲁普任务实验的数据，共同为斯特鲁普效应这一现象提供了证据。若要进一步解释这些现象，就需要能够说明其如何产生的理论。

这一框架已相当成熟，并已被应用于心理科学（Borsboom et al., 2021; Haig, 2013）。然而，在讨论理论与现象的关系时，人们往往只把它看作“单向通道”：理论被提出是为了说明现象，因此应当能够从理论中推导或预测相关现象。例如，在心理学理论的讨论中，一个核心且合理的批评是：心理学理论表述过于模糊，以至于无法对具体现象做出精确预测（e.g., Oberauer & Lewandowsky, 2019）。不过，在这类讨论中，鲜有人注意到理论与现象之间关系的“双向性”：现象同样会对可能的理论形成约束（Bechtel & Richardson, 1993; Craver & Darden, 2013）。换句话说，一个理论必须同时与领域内所有相关的现象保持一致，这会显著缩小可行理论的空间。

我们可以通过一个例子来说明这一点。在提出进化论之前，查尔斯·达尔文已经积累了大量描述性证据（Browne, 2006; Darwin, 1859; Rozin, 2001）。在那次著名的“小猎犬号”远航中（持续近五年），他进行了大量观察，并将结果详细记录在笔记中——这些记录在上述框架下即属于“数据”。基于这些数据，他发现了若干有趣的模式，例如加拉帕戈斯群岛上不同而又极为相似的鸟类物种分布。此后数年，他在选择性育种、化石记录以及航行期间采集样本等广泛领域进行了深入研究，在其中反复发现这样一些现象：物种之间存在共同祖先，而自然选择的作用方式类似于人工育种。基于这些发现，他撰写了《物种起源》——书中很大一部分篇幅都用于详细描述这些证据及其所指向的现象（Browne, 2006; Darwin, 1859）。

重要的是，这些证据不仅来源广泛，而且具有高度稳健性：相关现象可以通过多种独立方式被检测与验证，并不依赖于某一特定理论框架或观察方法（Eronen, 2015, 2019; Kuorikoski & Marchionni, 2016; Munafò & Smith, 2018; Wimsatt, 2007）。例如，特质的进化模式既可以在鸽子、牛、狗等物种的选择性育种中观察到，从原则上讲也可以被其他研究者反复验证。因此，这些现象在科学共同体中获得了广泛共识，并对可能的进化理论施加强有力的约束：一套进化论不仅要与其中的一两个稳健模式相吻合，更必须与所有这些模式同时相容。

天文学史提供了一个更为显著的例子，说明现象如何对理论形成约束。在天文学中，最重要的现象是天体（尤其是月球和行星）运动的规律性模式。这些模式基于长达数个世纪的观察，因而具有极高的稳健性；真正的难题在于如何提出一种理论，既能精确刻画这些模式，又能满足现象所施加的严格约束（Hoskin, 1997）。托勒密的地心模型假设行星沿着复杂的本轮轨道运行，该模型之所以得以延续数百年，部分原因就在于极难提出另一套理论，能够在拟合这些现象方面做得更好或至少同样好（Hoskin, 1997）。因此，当哥白尼与伽利略发展日心说时，理论空间已经被历代观测所高度压缩。当代理论物理学所承受的约束更为严苛：从粒子物理到宇宙学，存在大量稳健且几乎无争议的模式，任何新的物理理论都必须与这些模式保持一致。

▷天文学发展史，图源：

心理科学中的情形则截然不同。回到“数据”与“现象”的区分：在心理学中，来自问卷、可穿戴设备、网络行为等渠道的数据量正不断增长，但这些数据的质量往往值得怀疑（下一节将进一步讨论），而且在心理学的许多领域，至今尚未形成可与生物学或物理学相媲美的大规模稳健现象体系。

以自我损耗效应（Baumeister et al., 1998, 2000）为例：该现象指的是，当人们先从事一个需要自我控制的任务（如抵制吃饼干的诱惑），再去完成另一项同样需要自我控制的任务（如解一个困难的谜题）时，会在后一个任务中表现更差。为解释这一现象，最早且最具影响力的是自我控制的“力量（或肌肉、资源）模型”，该模型认为，自我控制是一种有限的、跨领域的资源，所有需要自我控制的任务都会消耗这种资源，从而可能导致资源耗竭（Baumeister et al., 1998, 2000）。

关于自我损耗的研究已发表数百项，看似为该理论提供了支持（Inzlicht & Friese, 2019）。然而，近年来，自我损耗效应本身及其背后的理论均遭到质疑（Friese et al., 2019）。在一项多实验室预注册重复研究中（Hagger et al., 2016），研究者几乎没有发现自我损耗的证据：总体效应量很小（d = 0.04），且对于大多数参与实验室而言，效应量的 95% 置信区间都包含零。作者因此得出结论：“如果存在任何效应，它也接近于零”（p.558）。此外，有学者指出，即便自我损耗效应确实存在，现有证据也不仅与自我控制力量模型相容，同样可以被其他理论解释（Inzlicht & Friese, 2019）。例如，在 Inzlicht 与 Schmeichel（2012）提出的过程模型中，自我损耗效应并非源于某种被耗尽的通用资源，而是由动机下降与注意力转移所导致。

重要的是，自我损耗并非特例。心理学中许多被认为已“确立”的现象在重复研究中同样屡遭失败（例如刻板印象威胁、新生儿模仿、以及多种启动效应（Bird, 2018），这表明心理学其他领域的情况亦大同小异（Inzlicht & Friese, 2019）。也就是说，在心理学的许多研究方向中，尚缺乏足够广泛且稳健的现象，来对理论形成强有力的约束。结果是，理论往往“证据不足以定其真伪”：现有证据（即相关现象）不足以决定哪一个理论更应被视为真实（Stanford, 2017）。从这个角度看，在那些缺乏稳健现象的心理学领域，理论进展迟缓也就不足为奇了。

心理构念与认识论迭代

解释心理学中优质理论稀缺的另一个重要原因，是对心理学构念（psychological construct）的改进与效度验证关注不足。在心理学文献中，各类心理构念数量众多且仍在快速增加：新的构念与量表层出不穷，有时为旧构念起了一个新名字，有时同一术语却指向显然不同的概念（Hagger, 2014）。例如，在回顾控制相关研究时，Ellen Skinner（1996）仅在“感知控制”这一主题下就发现了超过 30 种构念，而自那以后又有更多构念被提出（Hagger, 2014）。

从原则上说，要成为可接受的科学构念，这些心理学构念都必须具有结构效度（construct validity）。结构效度一词由克隆巴赫与米尔（Cronbach & Meehl, 1955）提出，其含义在随后几十年中不断演化与分化（Newton & Shaw, 2013）。其中几个核心思想包括：构念应嵌入特定的理论框架（Cronbach 与 Meehl（1955）最初称之为“法则网络”(nomological network)，以及对构念的测量应该是有效的，即测量值确实反映了该构念所指向的属性（Borsboom et al., 2004）。

▷Russ Gray

问题在于，尽管人们普遍承认结构效度极其重要，但在具体研究实践中，心理学家对其的重视程度远不及对信度等指标的重视。Flake 等人（2017）回顾了Journal of Personality and Social Psychology上一组随机抽取的论文，发现大多数文章对所用构念完全没有报告任何效度证据；即便有，也往往只是简单引用其他文献。Zumbo 与 Chan（2014）汇集的论文同样表明，心理科学家总体上较少报告效度证据，而更多关注其他心理测量学属性，尤其是信度。

最直接的解释是：提供信度证据相对容易，而提供效度证据则困难得多。对信度而言，有诸如克隆巴赫α 系数这类成熟且量化的指标；而对效度，目前既没有统一的定量度量，也尚未就“什么算结构效度”“什么样的证据才构成效度证据”达成共识（Newton & Shaw, 2013）。

如果把教科书与指南中常见的那句表述——“测验应当测量其意图测量的东西”——视作构念效度的含义，那么要证明效度，就需要展示：目标属性的变化实际上导致了测试分数的变化（Bringmann & Eronen, 2016; Borsboom et al., 2004）。然而，这种意义上的构念验证在实践中几乎从未真正开展过，结果是，心理科学目前充斥着大量效度未知的心理构念（Flake et al., 2017; Fried & Flake, 2018）。

自我损耗研究再次为此提供了典型例证。正如 Lurquin 与 Miyake（2017）所指出的，关键概念“自我控制”从未被清晰界定或具体操作化。该术语通常被宽泛地用于指涉对思想、情绪或行为的一切（抑制性）控制，却很少进一步说明这种控制的具体性质（Lurquin & Miyake, 2017）。同时，在自我损耗研究中用以操纵或测量自我控制的各种实验设置，也几乎从未被系统验证过（Inzlicht & Friese, 2019）。在 Wimmer 等人（2019）的最新研究中，研究者系统考察了最常用的一项自我损耗诱导任务——字母划销任务，参与者需按照复杂规则划掉字母。结果并未发现任何证据表明该任务会影响自我控制或抑制控制（Wimmer et al., 2019）。

临床心理学中的重度抑郁障碍（major depressive disorder, MDD）也存在类似问题。MDD 的定义源于 20 世纪 70 年代，此后基本未发生实质性改变，然而其结构效度问题却日益凸显（De Jonge et al., 2015; Fried, 2017）。例如，由于不同 MDD 个案之间存在极大的异质性——两个被诊断为 MDD 的个体可能没有任何一个症状相同——MDD 是否构成一个界限清晰的类别本身就值得怀疑（Fried, 2017）。此外，用于测量 MDD 的众多量表在内容上往往仅有极少重叠，因此很难判断它们是否真的测量的是同一个构念（Fried, 2017; Fried & Flake, 2018）。

将这些例子与自然科学中的实践对照，更能凸显问题所在。在自然科学中，各类概念与分类会随着新实验、新观察及其所嵌入的理论框架的完善而不断被精细化。例如，一个最初粗糙且界定模糊的概念（例如常识中的“鱼”[fish]），经过提炼与重新构想（例如在传统林奈物种分类法中转化为“鱼纲”[Pisces]概念，大致定义为终生栖居水中的鳍类动物），随后基于新理论与证据再次接受检验与调整（例如 “鱼纲”不再被视为科学分类单元，而是依据进化关系划分为若干独立纲级）。

类似的例子在科学史上比比皆是。以“电子”为例，该概念在 19 世纪 90 年代被引入物理学，最初意指“电荷的基本单位”；后来，随着实验和理论（尤其是量子理论）的发展，其含义不断被重塑：如今，“电子”通常被定义为一种具有 −1 电荷、自旋 1/2 的费米子基本粒子。Chang（2004, 2016）把这种过程称为“认识论迭代”（epistemic iteration），并将其界定为：“在既有知识的基础上，一层一层地构建新的知识阶段，以更好地实现某种认识目标的过程”（Chang, 2004, p. 224）。

与此形成对比的是，在心理学中，这种迭代过程并非研究的常态，尽管官方指南反复强调：验证是一个持续进行的过程（Flake et al., 2017）。当然，也存在一些积极的例外（详见 Kendler, 2012）。例如，艾宾浩斯在 19 世纪 80 年代开创记忆的科学研究时，将“记忆”视为一个单一、朴素的常识概念，没有区分不同类型的记忆（Tulving, 2007）。在此之后的研究中，尤其是自 20 世纪 50 年代以来，研究者陆续提出了多种不同类型的记忆，如非陈述性记忆与陈述性记忆，其中陈述性记忆又可进一步分为情景记忆和语义记忆（Michaelian & Sutton, 2017）。这些记忆类型并非一成不变，而是持续在新证据与新论证的推动下被修订与重构（Tulving, 2007）。

▷图源：Collignon Antoine

心理构念之所以往往对变更表现出高度“顽固性”，有一个重要的实际原因，即 Wimsatt（1986, 2007）提出的“生成性嵌入”（generative entrenchment）概念：一旦某个概念成为众多其他概念、理论或实践所依赖的基础，它就会被“嵌入”到整个体系之中，即便研究者已经意识到该概念存在缺陷或问题，也会因为担心更改它会引发连锁崩塌，而不敢轻易动摇（Wimsatt, 2007, p. 140）。许多心理构念（尤其是临床领域的构念）正是在这种生成性嵌入的过程中变得难以撼动，因为它们不仅在其他理论和模型中具有重要地位，还与更广泛的社会实践紧密相关。例如，MDD 这样的构念在临床诊断及医疗保险决策中都扮演着关键角色。

然而，对心理构念进行认识论迭代与效度验证，对于走出理论危机至关重要。正如上一节所述，优质理论以稳健现象为基础；而现象源于数据的归纳与抽象，如果数据所依赖的构念与测量工具本身尚未得到充分理解或验证，那么由此推得的“现象”就难以真正稳健。换句话说，心理学中缺乏稳健现象的一个重要根源，正是对结构效度及其迭代改进缺乏足够重视。

心理学理论与寻找因果关系的难题

导致心理学中优质理论稀缺的第三个原因，是在心理变量之间寻找因果关系极其艰难。人们普遍认为，一个良好的理论应当以某种方式反映真实的因果关系（e.g., Craver, 2007; Pearl, 2000; Woodward, 2003）。例如，达尔文的进化论揭示的是物种进化的因果机制（自然选择），而 DNA 理论则描述了遗传的因果机制。由此可推，若心理学理论旨在解释心智如何运作，那么它同样应当反映心智的因果机制（Bechtel, 2008; Thomas & Sharp, 2019），即捕捉心理变量之间的因果关系。

然而，正如 Eronen（2020）所系统论证的，在心理变量之间发现因果关系往往极其困难，甚至在很多情形下几乎不可能。为说明这一点，我们借鉴 Woodward（2003, 2015）的干预主义因果理论（参见 Pearl, 2000, 2009），该理论以一种清晰而通用的方式，阐明了推断因果关系需要满足的条件。

因果关系的一个核心特征在于：与单纯的相关不同，因果关系可以被“利用”来进行操控与控制——通过干预原因，可以引发结果的改变。干预主义理论正是从这一点出发，将因果性（粗略地）界定为：若在其他变量保持不变的情况下，可以通过对 X 的干预改变 Y，则 X 是 Y 的原因。这样的干预必须是针对 X 的“无混淆操控”，即操控 X 不应同时通过绕开 X 的路径影响 Y（更精确的表述见 Eronen, 2020; Woodward, 2003）。在某些情形下，并不一定需要真正实施干预，也可以在合适的观测数据基础上，间接推断假想干预会产生的效果。同样的思路也以不同形式出现在心理学者更熟悉的其他因果框架中，如 Rubin 的因果模型（Rubin, 2005）或 Campbell 的因果模型（Shadish et al., 2002）。

随机对照试验通常被视为满足上述条件的因果推断“黄金标准”。以药物试验为例：参与者被随机分配到治疗组和对照组，这一随机化过程在统计意义上实现了对除原因（药物）与结果（康复）之外其他变量的“保持不变”。对治疗组施加药物的行为构成了干预，该干预要想是无混淆的，就不能在药片中掺入其他会绕过药物本身、直接影响康复的成分。

许多心理学实验通过操控非心理因素（例如药物、教学材料、视觉或听觉刺激）来考察其心理效应（Eronen, 2020）。在这种场景下，只要设计得当，这类干预在原则上并不比其他领域更难实施。因此，以下论证并不否定自冯特以来那一脉“操控外部自变量、观察其心理效应”的经典实验传统。然而，如果我们的目标是形成能够描述心智因果机制的实质性心理学理论，那么仅仅确立外部自变量与心理变量之间的因果关系还远远不够——我们还必须了解心理变量彼此之间的因果联系，而这就需要对心理变量本身进行有效干预，并追踪其效应。

问题在于，对心理变量的干预往往具有“胖手”（fat-handed）效应（Eronen, 2020）：它并不会只改变目标变量本身，而是会同时改变多个心理变量。这是因为目前还没有直接操控心理变量（如思想或情感）的方式（Chiesa, 1992; Hughes et al., 2016）。在实践中，我们只能通过语言指令或其他外部刺激以间接方式来操控心理状态，而这类技术通常难以做到只改变一个心理变量。例如，就目前而言，要在不改变动机、注意力或焦虑感等任何其他心理状态的前提下，单独操纵“失控感”几乎是不可能的。此外，心理变量只能被间接测量（如依赖自我报告或行为替代指标；De Houwer, 2011），这又使得我们难以准确判断干预究竟改变了哪些变量，以及干预究竟有多“手胖”。

这给在心理变量之间寻找因果关系带来了严重困难，因为当干预具有胖手效应的时候，我们就无法理所当然地视其为“无混淆操控”，从而难以进行可靠的因果推断。更具体而言，我们不能轻易假设：某次干预仅通过“先改变 X，再由 X 影响 Y”的路径作用于结果 Y。

再次以自我损耗研究为例：在相应实验中，自我控制往往通过多种方式被操控（例如让参与者进行复杂或令人沮丧的任务或游戏，或让其抵制某些诱惑，如不吃美味点心；Friese et al., 2019）。要得出“自我控制是第二个任务中表现受损之原因”这一结论，相关干预就必须构成针对自我控制的无混淆操控，即在改变自我控制的同时，不应改变其他也可能影响结果的心理因素（如动机、注意力、愤怒感等）。然而，考虑到这类干预目标非常宽泛、而我们又对自我控制及其相关构念（动机、注意力等）的因果结构知之甚少，这种假设显然不现实（Friese et al., 2019）。例如，抵御饼干的诱惑很可能同时削弱参与者的继续投入动机，或激发愤怒与挫败感。因此，自我损耗实验难以提供足够证据证明“自我控制资源的下降是第二任务表现受损的真正原因”，这也与近期综述性研究给出的结论一致（Friese et al., 2019; Inzlicht & Friese, 2019）。

总之，对心理变量的干预在很大程度上具有胖手效应的，此类干预难以为严谨的因果推断提供可靠基础。操控外部因素、追踪其心理效应这一经典实验传统，并不能简单外推到“直接操控心理变量”这种情境中，因为针对心理变量的干预在本质上与对外部变量的干预大相径庭，而且困难得多（见 Chiesa, 1992; De Houwer, 2011）。如果我们认可“心理学理论应当追踪真实的因果关系”这一要求，那么这一点便构成了理解“为什么心理学中优质理论如此少见、且如此难以发展”的重要原因。

▷Elvin Aliyev

讨论

本文围绕发展良好心理学理论的三项根本性困难展开讨论：缺乏足够稳健的现象、心理构念缺乏效度与认识论迭代，以及在心理变量之间建立因果关系的困难。若要在解决理论危机方面取得进展，就必须正视并讨论这些问题。基于上述分析，我们在此提出若干对心理学研究的建议。

首先，我们的讨论支持近年对“现象探测”或“现象驱动研究”的呼吁（Borsboom et al., 2021; De Houwer, 2011; Haig, 2013; 另见 Trafimow & Earp, 2016）。通过不断发现新的现象，并为既有现象积累更为稳健的证据，我们就能对可行理论的空间施加更强约束。

支持现象驱动研究的另一个重要理由在于：现象本身对科学与社会同样具有巨大价值（Eronen, 2020）。以认知偏差为例，心理学家已发现诸多认知偏差，如确认偏差（confirmation bias），其中许多都被证实为相当稳健的现象（Gilovich et al., 2002）。为解释这些现象，研究者提出了多种理论，例如属性替代理论（认为人们常以简单启发法替代复杂计算）以及更为宏观的双系统理论（Kahneman & Frederick, 2002）。不过，与这些理论相比，对现象本身的争议要小得多。更重要的是，即使在尚不清楚其背后理论或机制的情况下，仅仅知道这些现象确实存在，对于科学与社会而言都具有重要意义。同样的道理也适用于心理学中广泛发现的其他稳健现象，例如人们倾向于偏好熟悉刺激而非陌生刺激这一“单纯曝光效应”（Bornstein, 1989）。即便缺乏一个被广泛接受的理论来解释这些现象，对其进行记录与刻画本身就是有价值的。

在发现与描述之外，我们还可以通过寻找不同现象间共享的抽象结构，对现象进行进一步分析（Hughes et al., 2016）。例如，在抽象层面上，无论是频繁查看手机，还是用糖果奖励儿童的良好行为，都可以被视为（正性）强化的实例（Hughes et al., 2016）。基于上述种种原因，现象探测应当被视为心理学研究本身的一个重要目标，而非仅仅是通往理论的中间步骤（见 Fiedler, 2017; Haig, 2013; Rozin, 2001）。

当然，我们绝非在暗示：心理学中的理论化工作毫无希望或是一种资源浪费，更不是要回到那种将关于心理过程的一切理论都视为“不科学”的行为主义立场。我们所提出的困难不应被看作无法跨越的障碍，而是作为在特定领域发展优质心理学理论之前必须正面应对的挑战。

这也引出了下一个问题：近年来不少作者主张应通过数学化或形式化来提升心理学理论的质量（e.g.,Borsboom et al., 2021; Muthukrishna & Henrich, 2019; Oberauer & Lewandowsky, 2019; van Rooij & Baggio, 2021），但这种做法是否真能在科学意义上带来实质性进步，其实值得怀疑。我们前文讨论的那些问题，仅仅通过形式化并不会自动得到解决：稳健现象仍然匮乏，结构效度不会因写成公式就自然提高，而形式化本身也无助于克服因果推断与胖手干预的难题。此外，生命科学中许多成功且极为重要的理论本身并不具有严格的数学形式（例如发酵理论或突触传递理论；Bechtel & Richardson, 1993; Machamer, Darden & Craver, 2000）。正如 Rozin（2001；另见 Morey et al., 2018）所指出的，过早或过度依赖复杂的统计与计算模型并不会自动让心理学“更科学”，反而有可能在理论与经验基础（例如稳健现象）尚不牢固的前提下，起到适得其反的效果。

最后，我们几乎无法夸大“清晰且透明地界定概念”对于构建理论基础的重要性。需要特别强调的是，这与“理论的形式化”并不相同：概念完全可以在定性叙述的理论中被清晰界定（如达尔文的进化论），而形式化理论有时也可能以界定含糊的概念为基本要素（例如模因学中的某些模型在数学上结构清晰，但其核心概念“模因”本身却定义模糊；Kronfeldner, 2011）。概念澄清与构念验证应当被视为研究中重要而有价值的部分，而不是一道“做完一次就可以翻篇”的门槛。我们认为，在心理学中，夯实理论的概念基础，至少与改进统计方法和研究实践同等重要。

从长远来看，明确而可操作的构念也将有助于缓解因果推断中的困难：只有当构念被清晰界定并被可靠测量时，研究者才有可能实施针对性的干预并有效追踪其结果。在具备足够精确的构念和有效测量的前提下，未来甚至可以设想仅凭观测数据推断因果关系（参见 Eronen, 2020; Rohrer, 2018）。面对“难以找到心理原因”这一问题，另一种可能的应对策略是发展非因果理论，例如从现象中抽取抽象功能原理（De Houwer, 2011; Hughes et al., 2016）。不过，非因果理论是否真正具有解释力，目前仍是一个持续争论的话题（见 Reutlinger & Saatsi, 2018）。

值得庆幸的是，心理学中已经出现了一些体现上述“良好实践”的研究计划。例如，在自我损耗研究屡遭挫折之后，研究者逐渐将注意力转向更清晰地界定关键构念（如自我控制及其相关概念），并验证各种测量方式的有效性（Friese et al., 2019; Inzlicht & Friese, 2019; Lurquin & Miyake, 2017）。再如功能—认知范式（De Houwer, 2011; Hughes et al., 2016），其基本思路是先建立环境—行为之间的稳健现象，再用明确界定的心理构念作为中介，对这些现象进行解释。更具体的例子是 Robinaugh et al.（2020）提出的恐慌障碍理论，该理论专门针对恐慌障碍这一特定疾病展开，从而系统性地受相关现象约束（关于恐慌发作相关的核心现象，已有大量稳健证据），作者也明确聚焦于对关键概念进行细致界定。

总而言之，我们认为，这场理论危机最根本的成因在于研究对象本身——心理学所研究的主题，使得发展优质理论本就格外困难（Meehl, 1978）。借助当代科学哲学的视角，本文讨论了发展心理学理论所面临的三大核心挑战：稳健现象不足以对理论施加强约束，对心理构念的界定与效度验证重视不够，以及在心理变量之间建立因果关系的困难。我们希望，这篇文章能够引发对这些关键问题的更多关注，从而为心理学理论基础提供更为坚实的“积木”，推动这一学科在理论层面真正向前迈进。

Baumeister R. F., Bratslavsky E., Muraven M., Tice D. M. (1998). Ego depletion: Is the active self a limited resource? Journal of Personality and Social Psychology, 74, 1252–1265. - PubMed

Baumeister R. F., Muraven M., Tice D. M. (2000). Ego depletion: A resource model of volition, self-regulation, and controlled processing. Social Cognition, 18(2), 130–150.

Baumgartner M., Gebharter A. (2016). Constitutive relevance, mutual manipulability, and fat-handedness. The British Journal for the Philosophy of Science, 67, 731–756.

Bechtel W. C. (2008). Mental mechanisms. Routledge.

Bechtel W. C., Richardson R. C. (1993). Discovering complexity: Decomposition and localization as strategies in scientific research. Princeton University Press.

Bird A. (2018). Understanding the replication crisis as a base rate fallacy. The British Journal for the Philosophy of Science. Advance online publication. 10.1093/bjps/axy051 - DOI

Bogen J., Woodward J. (1988). Saving the phenomena. The Philosophical Review, 97(3), 303–352.

Bornstein R. F. (1989). Exposure and affect: Overview and meta-analysis of research, 1968–1987. Psychological Bulletin, 106(2), 265–289.

Borsboom D., Mellenbergh G. J., Van Heerden J. (2004). The concept of validity. Psychological Review, 111(4), 1061–1071. - PubMed

Borsboom D., van der Maas H., Dalege J., Kievit R., Haig B. (2021). Theory construction methodology: A practical framework for theory formation in psychology. Perspectives on Psychological Science, 16(4), 756–766. 10.1177/1745691620969647 - DOI - PubMed

Bringmann L. F., Eronen M. I. (2016). Heating up the measurement debate: What psychologists can learn from the history of physics. Theory & Psychology, 26(1), 27–43.

Browne J. (2006). Darwin’s origin of species: A biography. Allen & Unwin.

Chang H. (2004). Inventing temperature: Measurement and scientific progress. Oxford University Press.

Chang H. (2016). The rising of chemical natural kinds through epistemic iteration. In Kendig C. (Ed.), Natural kinds and classification in scientific practice (pp. 53–66). Routledge.

Chiesa M. (1992). Radical behaviorism and scientific frameworks: From mechanistic to relational accounts. American Psychologist, 47(11), 1287–1299. - PubMed

Craver C. F. (2007). Explaining the brain. Oxford University Press.

Craver C. F., Darden L. (2013). In search of mechanisms: Discoveries across the life sciences. University of Chicago Press.

Cronbach L. J., Meehl P. E. (1955). Construct validity in psychological tests. Psychological Bulletin, 52(4), 281–302. - PubMed

Darwin C. (1859). On the origin of species by means of natural selection. John Murray.

De Houwer J. (2011). Why the cognitive approach in psychology would profit from a functional approach and vice versa. Perspectives on Psychological Science, 6(2), 202–209. 10.1177/1745691611400238 - DOI - PubMed

De Jonge P., Wardenaar K. J., Wichers M. (2015). What kind of thing is depression? Epidemiology and Psychiatric Sciences, 24(4), 312–314. - PMC - PubMed

Eronen M. I. (2015). Robustness and reality. Synthese, 192, 3961–3977.

Eronen M. I. (2019). Robust realism for the life sciences. Synthese, 196, 2341–2354.

Eronen M. I. (2020). Causal discovery and the problem of psychological interventions. New Ideas in Psychology, 59, Article 100785. 10.1016/j.newideapsych.2020.100785 - DOI

Fiedler K. (2017). What constitutes strong psychological science? The (neglected) role of diagnosticity and a priori theorizing. Perspectives on Psychological Science, 12(1), 46–61. 10.1177/1745691616654458 - DOI - PubMed

Flake J. K., Pek J., Hehman E. (2017). Construct validation in social and personality research: Current practice and recommendations. Social Psychological and Personality Science, 8(4), 370–378.

Fried E. I. (2017). Moving forward: How depression heterogeneity hinders progress in treatment and research. Expert Review of Neurotherapeutics, 17(5), 423–425. 10.1080/14737175.2017.1307737 - DOI - PubMed

Fried E. I., Flake J. K. (2018). Measurement matters. APS Observer, 31(3), 29–30.

Friese M., Loschelder D. D., Gieseler K., Frankenbach J., Inzlicht M. (2019). Is ego depletion real? An analysis of arguments. Personality and Social Psychology Review, 23(2), 107–131. - PubMed

Gigerenzer G. (2010). Personal reflections on theory and psychology. Theory & Psychology, 20(6), 733–743.

Gilovich T., Griffin D., Kahneman D. (Eds.). (2002). Heuristics and biases: The psychology of intuitive judgment. Cambridge University Press.

Hagger M. S. (2014). Avoiding the “déjà-variable” phenomenon: Social psychology needs more guides to constructs. Frontiers in Psychology, 5, Article 52. 10.3389/fpsyg.2014.00052 - DOI - PMC - PubMed

Hagger M. S., Chatzisarantis N. L., Alberts H., Anggono C. O., Batailler C., Birt A. R., Brand R., Brandt M. J., Brewer G., Bruyneel S., Calvillo D. P., Campbell W. K., Cannon P. R., Carlucci M., Carruth N. P., Cheung T., Crowell A., De Ridder D. T. D., Dewitte S., . . . Zwienenberg M. (2016). A multilab preregistered replication of the ego-depletion effect. Perspectives on Psychological Science, 11(4), 546–573. 10.1177/1745691616652873 - DOI - PubMed

Haig B. D. (2013). Detecting psychological phenomena: Taking bottom-up research seriously. The American Journal of Psychology, 126(2), 135–153. - PubMed

Hoskin M. (1997). Astronomy in antiquity. In Hoskin M. (Ed.), The Cambridge illustrated history of astronomy (pp. 22–47). Cambridge University Press.

Hughes S., De Houwer J., Perugini M. (2016). The functional-cognitive framework for psychological research: Controversies and resolutions. International Journal of Psychology, 51(1), 4–14. - PubMed

Inzlicht M., Friese M. (2019). The past, present, and future of ego depletion. Social Psychology, 50(5-6), 370–378. 10.1027/1864-9335/a000398 - DOI

Inzlicht M., Schmeichel B. J. (2012). What is ego depletion? Toward a mechanistic revision of the resource model of self-control. Perspectives on Psychological Science, 7(5), 450–463. - PubMed

Kahneman D., Frederick S. (2002). Representativeness revisited: Attribute substitution in intuitive judgment. In Gilovich T., Griffin D., Kahneman D. (Eds.), Heuristics and biases (pp. 49–81). Cambridge University Press.

Kendler K. S. (2012). Epistemic iteration as a historical model for psychiatric nosology: Promises and limitations. In Kendler K., Parnas J. (Eds.), Philosophical issues in psychiatry II: Nosology (pp. 305–322). Oxford University Press.

Klein S. B. (2014). What can recent replication failures tell us about the theoretical commitments of psychology? Theory & Psychology, 24(3), 326–338.

Kronfeldner M. (2011). Darwinian creativity and memetics. Routledge.

Kuorikoski J., Marchionni C. (2016). Evidential diversity and the triangulation of phenomena. Philosophy of Science, 83, 227–247.

Lakens D. [@lakens] (2019, September 20). The Scheel Theorem: Things get more personal in psych because people have their own theory. Consequence: Books like the ABC . . . [Tweet].

Lurquin J. H., Miyake A. (2017). Challenges to ego-depletion research go beyond the replication crisis: A need for tackling the conceptual crisis. Frontiers in Psychology, 8, Article 568. 10.3389/fpsyg.2017.00568 - DOI - PMC - PubMed

Machamer P., Darden L., Craver C. F. (2000). Thinking about mechanisms. Philosophy of science, 67(1), 1–25.

Meehl P. E. (1967). Theory-testing in psychology and physics: A methodological paradox. Philosophy of Science, 34(2), 103–115.

Meehl P. E. (1978). Theoretical risks and tabular asterisks: Sir Karl, Sir Ronald, and the slow progress of soft psychology. Journal of Consulting and Clinical Psychology, 46(4), 806–834. 10.1037/0022-006X.46.4.806 - DOI

Meehl P. E. (1990). Why summaries of research on psychological theories are often uninterpretable. Psychological Reports, 66(1), 195–244.

Michaelian K., Sutton J. (2017). Memory. In Zalta E. N. (Ed.), The Stanford encyclopedia of philosophy (Summer 2017 ed.).

Michie S. F., West R., Campbell R., Brown J., Gainforth H. (2014). ABC of behaviour change theories. Silverback Publishing.

Miller R. R., Barnet R. C., Grahame N. J. (1995). Assessment of the Rescorla-Wagner model. Psychological Bulletin, 117(3), 363–386. - PubMed

Morey R., Homer S., Proulx T. (2018). Beyond statistics: Accepting the null hypothesis in mature sciences. Advances in Methods and Practices in Psychological Science, 1(2), 245–258.

Munafò M. R., Smith G. D. (2018). Robust research needs many lines of evidence. Nature, 553, 399–401. - PubMed

Muthukrishna M., Henrich J. (2019). A problem in theory. Nature Human Behaviour, 3, 221–229. - PubMed

Newton P. E., Shaw S. D. (2013). Standards for talking and thinking about validity. Psychological Methods, 18(3), 301–319. - PubMed

Oberauer K., Lewandowsky S. (2019). Addressing the theory crisis in psychology. Psychonomic Bulletin & Review, 26(5), 1596–1618. - PubMed

Pearl J. (2000). Causality: Models, reasoning, and inference. Cambridge University Press.

Pearl J. (2009). Causal inference in statistics: An overview. Statistics Surveys, 3, 96–146.

Reber R. (2016, April 30). The theory crisis in psychology. Psychology Today.

Reutlinger A., Saatsi J. (Eds.). (2018). Explanation beyond causation. Oxford University Press.

Rohrer J. M. (2018). Thinking clearly about correlations and causation: Graphical causal models for observational data. Advances in Methods and Practices in Psychological Science, 1(1), 27–42. 10.1177/2515245917745629 - DOI

Robinaugh D., Haslbeck J. M. B., Waldorp L., Kossakowski J. J., Fried E. I., Millner A., McNally R. J., van Nes E. H., Scheffer M., Kendler K. S., Borsboom D. (2020). Advancing the network theory of mental disorders: A computational model of panic disorder. PsyArXiv. 10.31234/osf.io/km37w - DOI

Romero F. (2015). Why there isn’t inter-level causation in mechanisms. Synthese, 192(11), 3731–3755.

Rozin P. (2001). Social psychology and science: Some lessons from Solomon Asch. Personality and Social Psychology Review, 5(1), 2–14.

Rubin D. B. (2005). Causal inference using potential outcomes: Design, modeling, decisions. Journal of the American Statistical Association, 100(469), 322–331.

Shadish W. R., Cook T. D., Campbell D. T. (2002). Experimental and quasi-experimental designs for generalized causal inference. Houghton-Mifflin.

Skinner E. A. (1996). A guide to constructs of control. Journal of Personality and Social Psychology, 71(3), 549–570. - PubMed

Stanford K. (2017). Underdetermination of scientific theory. In Zalta E. N. (Ed.), The Stanford encyclopedia of philosophy (Winter 2017 ed.).

Thomas J. G., Sharp P. B. (2019). Mechanistic science: A new approach to comprehensive psychopathology research that relates psychological and biological phenomena. Clinical Psychological Science, 7(2), 196–215.

Trafimow D., Earp B. D. (2016). Badly specified theories are not responsible for the replication crisis in social psychology: Comment on Klein. Theory & Psychology, 26(4), 540–548.

Tulving E. (2007). Are there 256 different kinds of memory? In Nairne J. S. (Ed.), The foundations of remembering: Essays in honor of Henry L. Roediger, III (pp. 39–52). Psychology Press.

van Rooij I. (2019, January 18). Psychological science needs theory development before preregistration. Psychonomic Society.

van Rooij I., Baggio G. (2021). Theory before the test: How to build high-verisimilitude explanatory theories in psychological science. Perspectives on Psychological Science, 16(4), 682–697. 10.1177/1745691620970604 - DOI - PMC - PubMed

Wimmer M. C., Dome L., Hancock P. J., Wennekers T. (2019). Is the letter cancellation task a suitable index of ego depletion? Social Psychology, 50(5-6), 345–354.

Wimsatt W. C. (1986). Developmental constraints, generative entrenchment, and the innate-acquired distinction. In Bechtel W. (Ed.), Integrating scientific disciplines. Science and philosophy (pp. 185–208). Springer.

Wimsatt W. C. (2007). Re-engineering philosophy for limited beings: Piecewise approximations to reality. Harvard University Press.

Woodward J. (1989). Data and phenomena. Synthese, 79(3), 393–472.

Woodward J. (2003). Making things happen. A theory of causal explanation. Oxford University Press.

Woodward J. (2015). Methodology, ontology, and interventionism. Synthese, 192, 3577–3599.

Zumbo B. D., Chan E. K. (Eds.). (2014). Validity and validation in social, behavioral, and health sciences (Vol. 54). Springer.