物理教育量化研究方法：调查研究与描述统计

物理教育研究（Physics Education Research,简称PER）是一种有目的、有计划的活动，研究人员必须依据研究目的收集数据、选择适合的数据分析方法和对结果给出合理的解释。调查研究（survey research）是物理教育量化研究方法中基础和常用的方法，其目的是在大样本的人群中定量描述我们感兴趣的方面，调查研究使用的数学工具是描述统^[1]。这类研究主要是用来描绘或概括在物理教育研究中获得数据的基本情况，显示其分布特征，研究不涉及因果^[2]。

1 调查研究中的数据收集

在收集数据之前，研究人员必须明确研究问题或假设。这些问题或假设应该包括感兴趣的变量、测量工具和研究样本3个方面。

感兴趣的变量反映了一个研究人员希望观察或测量什么。例如研究人员可能希望调查学生在一个物理学课程的学习过程中对某些物理概念的理解，或者调查他们对物理学本质和物理学习方法的认识论。这些变量通常是模糊的，不能通过直接观察得出结论，因此确定与之相关的可以直接测量的变量是非常关键的。例如，研究人员通常使用学生在物理概念测试的得分来研究学生对物理概念的理解。研究中还需要通过一些理论框架或文献综述来获得一个基准，确定直观测量量（学生的分数）和不可观察的变量（学生对概念的理解）之间的联系。

明确了感兴趣的变量后，就要寻找适合的测量工具。PER学者陆续开发出许多测试工具，涵盖了非常广泛的主题，包括：物理概念测试、科学推理和物理认识论等^[3]。如果没有合适的调查工具，就需要研究者按照科学范式自行开发新的测量工具。

调查研究还需要依据测试目标合理选择调查方法、测试时间和抽取样本。调查方法包括纸笔测验、邮寄调查问卷、网上投票或者访谈等；根据不同的研究目标，调查可以在不同时间点进行，例如在教学前、教学中或教学后。在调查研究中必须依据研究目标选择有代表性的样本，考虑一些重要的因素，包括研究对象的身份（学生、教育工作者、家长、研究人员、管理者、决策者等等）、主体的数量、学历、年龄、性别、种族、国籍，以及其他可能与试图研究的问题相关的因素，使通过样本获得的定量结果可以理想地代表总体。

2 调查研究中选择适合的数据分析方法

数据收集完成后，研究人员需要谨慎选择适当的数据分析方法。在描述统计中常用的方法包括分析平均值和中位数、标准差和标准误、标准分数、相关和回归。相关和回归需要两个或更多数据集，其他统计方法都用来描述单个数据集。下面我们首先介绍单个数据集的统计方法，然后再讨论以相关和回归为代表的多个数据集的分析方法。

2.1单个数据集的描述分析

对于单组数据，进行统计分析时，常常计算数据的一些特征量，包括集中量（measures of central tendency）和差异量(measures of variability)，分别用来解释一组统计数据的集中趋势和离散程度。

描述一组数据集中量的参数有：平均数，中位数和众数等。在物理教育研究中，应用最为广泛的是算数平均数。只有定距 (interval) 和定比(ratio) 数据可以进行加减法运算^[2]，对它们计算平均数才有意义。平均数通常不适用于定类(normial) 或定序(ordinal) 数据，在实际应用中，如果定序数据是正态分布的，通常可以近似看成定距数据。因此在大部分PER研究中，研究人员经常将测试总分（例如大部分的概念测试工具如FCI，FMCE，BEMA 等测得的数据）视为定距数据。但是，对于使用李克特等级量表（liket-scale inventory）进行问卷调查时（例如C-LASS，MPEX），通常不能将其得分看成定距数据，计算其平均数。

描述一组数据差异量的参数也有很多，其中方差（variance）和标准差（standard deviation）的应用最为广泛。如果一组数据的集中量采用平均数表示，那么差异量要用标准差表示，公式为S=

（其中

是每个数据与平均数的差，N表示样本中研究对象的数量）。差异量越大表明数据分布的范围越广，越不整齐，差异量越小，表明数据分布越集中，变动范围越小。例如一个班级学生物理成绩的标准差大，说明学生之间成绩差异大，分化严重。最极端的情况是，所有的数据都相同，此时标准差为零。

标准分数是将原始数据转换成以标准差为单位的一种数值形式，等于原始分数与平均数的差值除以标准差，计算公式为Z=

，标准分数表明每个数据点高于（Z>0）或低于(Z<0)平均值多少个标准差，从而表明原数据在一组数据分布中的位置，它不受原始测量单位影响，因此可以用于比较各种不同单位的数据。例如一个学生物理考试分数为80分，对应标准分数为 0.5；数学成绩为89分，对应的标准分数为-0.3，表明该学生物理成绩高于全班平均成绩0.5个标准差，而数学成绩比全班平均成绩低0.3个标准差，据此认为该学生物理成绩优于数学成绩，与原始分数80分与89分比较结果相反。通常情况下，如果一组数据服从正态分布，其标准分数被称为Z分数。否则，我们称之为t分数。此外，与平均数和标准差一样，标准分数只适用于定距和定比数据，不适用于定序和定类数据。

对于定序或定类数据的描述统计往往是以频数（frequency）分布的形式进行。通常的方法是计算定序或定类数据中不同类别所占的百分比。例如，为了检查不同专业选学物理课程学生人数中的性别分布，研究人员可以分别计算每一个专业的男、女生数量，然后计算百分比，找出分布规律。

2.2两个或多个数据集的描述分析

在物理教育研究中，许多教育现象或教和学的行为之间存在着一定的相互关系，这实质上涉及两组数据的相互关系。在描述统计中使用相关和回归分析来研究两组以上数据之间的关系。

相关（correlation）的描述统计方法可以用来分析两组数据集之间的共变关系，相关系数r表征两个变量之间变化方向及密切程度。r的取值在-1到 1之间。r为负表示两个变量负相关，为正表示两个变量是正相关。|r|越高表明两组数据集之间的相关越高，|r|=1称完全相关，r=0称完全不相关。

由于研究对象的不同，相关系数有多种定义方式。需要研究者根据研究主题和数据类型正确选择。较为常用是皮尔逊相关系数（Pearson coefficient），用于计算两组定距或定比数据的线性相关的程度，要求两组数据均满足正态分布，并且具有一一对应关系。在PER中，这种方法经常被用于调查学生在两种不同的测验中的表现是不是彼此相关。例如，Thornton等人在伦斯勒理工学院物理课程工作室对大约2000名学生进行了力的概念测试（Force Concept Inventory简称FCI）和力与运动概念评测（Force and Motion Conceptual Evaluation简称FMCE）的测试。在这两个测试中，将学生测试分数近似为定距数据，并用其计算皮尔逊相关系数。结果显示，尽管在这两个测试中每个主题在内容覆盖面和题目数量上有差异，但是FMCE和FCI这两个测试分数之间有相当高的正相关（r=0.78，最大值为1），表明这两项测试所测量的内容有很大一部分是重叠的^[4]。

对于定序数据，乃至非正态分布的定距或定比数据，我们需要使用斯皮尔曼秩相关系数ρ(Spearman-s correlation coefficient for ranked data)来计算相关^[5]。至于定类数据的相关的计算超出了描述统计的范围，是推论统计的内容，但是对于两个定类数据集都是二分变量的特殊的情况，我们可以使用Phi（φ）系数来计算相关，它是皮尔逊相关系数对两个二分变量数据集的一种简化处理。例如，Heller和Huffman用这种方法来计算FCI项目中的二分变量——得分（1或者0）的Phi相关系数^[6,7]。基于这些相关，他们进行了数据的构成分析，用以检查FCI每个项目是否能被归入FCI工具设计的六个主题（维度）之中。

相关系数只能说明两个变量之间的变化方向及密切程度，不揭示事物内在的因果关系。如果需要分析相关的两个变量之间的内在联系，研究者必须对这两个变量的本质意义进行分析。另外，相关系数对样本规模非常敏感的（样本量越小越容易出现伪相关，最极端情况是只有两个数据样本，两点一线，其相关系数为1，但不具有统计学意义），因此研究人员在报告相关时，需要报告样本规模和相关的显著性水平，从而判定这个样本是否有统计学意义。显著性检验超出描述统计，涉及推断统计，将在后续文章中详细介绍。

回归分析（regression analysis）是相关分析的延伸，如果一个变量（回归分析中称为因变量）和另外一个或多个变量（自变量）存在显著相关，说明它们之间有某种共变关系，如何进一步用数学模型来描述这种变化关系，这就涉及回归分析。粗略地说，回归分析是寻找相关关系中非确定性关系的某种确定性。按照研究涉及的自变量的多少，分为一元回归分析和多元回归分析。依据自变量和因变量的之间的函数关系分为线性回归和非线性回归。线性回归关系相对简单，因变量的变化和每个自变量的变化都成正比。

在物理学教育研究中，线性回归经常被用来描述一个感兴趣的变量是如何根据其他变量变化的。所选的自变量和因变量之间具有较强的相关，在理论上具有教育意义和内在的可能因果关系，而不只是形式上的相关。所选自变量之间的相关程度不应高于自变量与因变量之间的相关程度，应尽可能避免自变量之间高度相关，以免发生多重共线(multilinearity)问题^[8]。

Kortemeyer研究学生在物理课程期末成绩与他们在线学习行为之间的关系^[9]，研究者将学生在线学习行为分成六种类型，用学生在线讨论时的表现进行测量。该研究使用FCI后测(post-FCI)成绩（课程结束时进行测量）作为因变量，选择FCI前测(pre-FCI)成绩（课程开始前进行测量）为一个自变量，学生在线讨论时某一类行为作为另一个自变量，进行回归分析。例如，在该研究分类中，有一类学生学习行为是：“只关注问题的解答（solution），对解决问题过程中的因果推理和涉及的物理本质不关注”对于这个自变量（solution），研究得出的回归方程为：

该结果对于FCI后测分数而言，其方差（explained variance ）的47.9%可被自变量解释，并且回归方程中的两个系数在统计上都是显著的。学生的这类行为表现越典型，行为变量得分越高，-0.042的系数（负斜率）说明：在控制pre-FCI前测成绩不变的情况下，学生在该类型行为得分增加10分（占10%），其post-FCI后测得分减少0.42。在物理教学中一些教师试图通过教给学生解题技巧和记忆题型，帮助学生直接快速地获得答案，以此提高学习效率。上例中的数据表明，学生以这样的方式学习产生的效果是负向的，因此在教学中应该避免这样的做法。所以用科学方法做物理教育研究，可以更好地帮助教师探索、揭示教育规律，按照规律办事。

在物理教育研究中，非线性回归分析并不经常使用。有一个典型的例子是Henderson等人做的一项研究^[10]。他们采用逻辑回归的方法寻求物理教师对基于研究设计的教学方法（Research-Based Instruction Strategy简称RBIS）的认知和使用这些方法的情况与哪些因素相关联，涉及的因素包括：RBIS方面的知识，阅读相关期刊、参加相关讲座和研讨等20个潜在自变量。感兴趣的读者可以参考原文献以获取更多的细节。

3 结论

综上所述，对于一组数据，其每个数据的数值不同，它们的平均值可以视为这一组数据的一个概括，其代表性如何，就要看这组数据的离散程度，离散越小，代表性越强。相关是两组数据的共变关系，并非一定揭示事物内在的因果关系，但是可以为进一步深入研究指出一个可能的方向。同样，回归方程不是变量之间的刚性刻画，而只是某种平均性质的概括。用回归方程去刻画一对变量之间的关系，其代表性如何，取决于它们的相关系数。由于回归方程是在样本数据的基础上得到的，对于回归方程是否真实反映了事物之间的统计关系以及它是否能用于预测等需要进行统计检验^[8]。

调查研究与描述统计是物理教育量化研究方法中最基本的方法，也是其他量化研究方法的基础。在此我们只概述其中最基本的概念、给出它们在物理教育研究中的应用实例，目的是帮助对物理教育量化研究感兴趣的教师快速入门，然后在实践中通过专门化的学习提升物理教育量化研究的专业能力。

参考文献

[1]FRAENKEL J R, WALLEN N E AND HYUN H. How to design and evaluate research in education[M]. New York: McGraw-Hill Higher Education, 2012.

[2]DING Lin,张萍，贾泽皓.物理教育研究的量化研究方法[J].物理与工程,2019,29(2): 78-82.

DING L, ZHANG P, JIA Z H. Quantitative methods in physics education research[J]. Physics and Engineering, 2019, 29(2): 78-82. (in Chinese)

[3]DING Lin，张萍.美国物理教育研究：历史回顾和前瞻[J].物理与工程,2018,28(1):2934.

DING L, ZHANG P. Foundations and frontiers of physics education research in the U.S[J]. Physics and Engineering, 2018, 28（1）：29-34. (in Chinese)

[4]THORNTON R, KUHL D, CUMMINGS K. MARX J, et al. Comparing the force and motion conceptual evaluation and the force concept inventory[J]. Physical Review Special Topics—Physics Education Research, 2009, 5(1): 010108.

[5]AGRESTI A. Analysis of ordinal categorical data[M]. Hoboken, NJ: John Wiley & Sons, 2010.

[6]HELLER P, HUFFMAN D. Interpreting the force concept inventory: A reply to Hestenes and Halloun[J]. Physics Teacher, 1995, 33(8): 503-511.

[7]HUFFMAN D, HELLER P. What does the force concept inventory actually measure?[J]. Physics Teacher, 1995, 33(3): 138-143.

[8]孙杰远.教育统计学[M]. 北京:高等教育出版社，2010.

[9]KORTEMEYER G. Correlations between student discussion behavior, attitudes, and learning[J]. Physical Review Special Topics—Physics Education Research, 2007, 3(1): 010101.

[10]HENDERSON C, DANCY M, NIEWIADOMSKA-BUGAJ M. Use of research-based instructional strategies in introductory physics: Where do faculty leave the innovation-decision process?[J]. Physical Review Special Topics—Physics Education Research, 2012, 8(2): 020104.

基金项目: 2017年湖北省高等学校省级教学研究项目“基于形成性评价的混合式学习活动设计与实践研究”（2017276）。

作者简介: DING Lin，男，俄亥俄州立大学教育学院终身教授，北京师范大学客座教授，长江大学楚天学者特聘教授，研究方向为物理教育研究和科学教育研究，Ding.65@osu.edu。

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。