魏顺平:技术支持的文献研究法——数字化教育研究的一个尝试 |
( 2011年10月31日) 一、数字化研究的兴起 文献搜集:编写检索语句,提高文献搜集的全面性和准确性 当前,大家常用的搜集文献方法就是从期刊网上搜集期刊论文,以了解最新研究成果。中国知网(CNKI)的中国期刊全文数据库是较为常用的期刊数据库。本文以该数据库为例阐述文献研究的开展过程。 一般而言,大家在介绍自己的文献搜集结果时会这样描述:“在中国期刊全文数据库中检索XX,得到XX篇论文”。这种表述让读者很难重复这一检索过程,因为不清楚所指的检索字段,也不清楚检索的年限以及检索发生的时间。笔者认为,做文献研究,首先是要找到所有相关文献,其次是找准所需的文献,最后是让他人也能重复这一检索过程。采用中国期刊全文数据库的专业检索功能可以使文献检索结果更全面、更准确,也使文献检索过程能为他人所重复。下面以搜集“协作学习”研究相关的文献为例,介绍专业检索功能的使用。当我们进入“中国期刊全文数据库”时,默认打开的是“标准检索”页面。此时单击页面右上角的“专业检索”链接,即可进入专业检索页面。在专业检索页面中输入如表1所示的检索语句,返回191篇论文记录(时间范围自1999年到2007年)。 在该检索语句中,检索词使用了“协作学习”、“合作学习”、“协同学习”、“CSCL”等多个,因为“协作学习”有多种表述方式,这样采用多个同义术语同时作为检索词的做法可以保证文献搜集的全面性。检索的期刊范围限定在教育技术研究领域的8个主要学术期刊,这是因为关于协作学习尤其是CSCL的研究多集中在教育技术领域,这样能保证文献搜集的准确性。并且这一文献检索过程是可重复的,读者将表1中的检索语句复制并拷贝到专业检索框中,设定时间范围,即可获得相同的检索结果。可重复性是严谨的科学研究的一个重要特征,通过编写检索语句可使文献研究法一定程度上具备这一特征。 文献整理:利用信息抽取技术和数据库查询语言变换文献呈现形式,提高文献整理效率 在过去,文献整理主要以手工笔记的方式完成,有“标记与批语式”、“抄录式”、“提要式”、“札记式”,费时费力,且不利于今后再利用,并且如果文献量庞大的话,很难实现对文献的一个整体认识。随着文献数字化存储和传播的到来,研究者所能得到的文献是海量,如果还是利用手工的方式(只不过用WORD文档替代了笔记本)进行文献整理,显然是不相匹配的。所幸,文献的数字化存储也就意味着文献的格式化存储,每篇文献的存储形式都是一样的,因为我们可以对这些文献进行批量整理,并迅速统计得出当前所掌握的文献的总体情况。有时,我们为了提高文献整理的效率,在最开始的时候,并不会逐一阅读所获得的文献全文,而是先浏览标题和摘要。因此,我们在借助中国期刊全文数据库开展文献研究的时候,可以批量获得文献的标题和摘要信息,存储在自己的计算机中,进行快速浏览和整理工作。 在中国知网(CNKI)中国期刊全文数据库的专业检索页面输入某检索语句,可得到如图2所示的检索结果,有10211条论文记录。面对如此众多的文献,纯手工的文献整理方法显然是不适用的。势必要借助计算机技术来辅助人们整理这些文献信息。 通过单击上图中的“全选”按钮,然后单击存盘按钮,我们便可以得到所选论文的题录信息如标题、摘要、关键词、作者等的呈现页面,其片段如表2所示。 原始的文献题录信息如表2所示,各种信息混同在一起。这里我们采用信息提取技术,通过总结每类信息的呈现规则,如文献标题以“题名”开始、关键词信息以“中文关键词”开始等,并用正则表达式将这些规则表达出来,以便计算机程序能够理解这些规则。然后按照规则编写计算机程序来批量处理这些题录信息,将各种信息分项存储到数据表中,得到文献题录信息表,其片段如表3所示。 如表3所示,将我们所找到的文献以统一的格式存储到我们本地机器的数据库中,应该算是初步完成了文献整理工作。在表3的基础上,研究人员通过编写数据库查询语句或者使用EXCEL的各种数据处理功能,可对文献进行更为深入的整理,如统计这一批文献的年度分布、期刊分布以及从事这一类研究的主要作者。随着同主题文献信息的不断积累,研究人员可以形成自己的研究专题数据库,为自己今后反复利用这些文献、深入分析这些文献带来方便。同时,采用信息抽取技术和数据库查询语言,可在几分钟内完成成千上万篇的文献基本信息的整理,大大提高了研究效率。 文献综述:利用文本挖掘技术分析文献文本,开拓文献综述的新形式 一般情况下,文献综述主要是通过人工阅读的方式,摘取文献中的一些重要观点,并进行系统、全面的叙述,之后加以评论。在文献数字化存储的条件下,我们可以采用自然语言处理技术,让计算机来辅助我们“阅读”大批量的文献,从总体上呈现一些事实和关系,而后在此基础上进一步聚焦到一小部分文献进行人工阅读,势必能大大提高文献综述的效率和效果。我们知道,文献研究的主要目的是“了解前人已取得的成果、研究的现状”,这些“成果”、“现状”其实就是“前人”所创造的知识,文献综述的一个重要任务就是要将这些前人创造的知识全面、准确的呈现出来。笔者认为,知识的元素是概念,知识的本质是概念及概念之间的关系。因此,我们可以从概念及概念间关系的角度来开展文献综述工作。术语是专业领域中概念的语言指称。术语和概念之间应一一对应,那么关于概念及概念间的关系的分析可以转换为术语及术语间的关系的分析。我们可以采用术语提取算法(傅骞,魏顺平,王斌,路秋丽,2008)从文献的题录信息提取得到所包含的术语,并采用共现分析法(魏顺平,2008)来计算术语间的关系,最终可以高频术语和术语网络关系图的形式来呈现已有研究所创作的知识,一定程度上达到了文献综述的要求,开拓了文献综述的新形式。 四 应用案例 为了完整展现上述技术支持的文献研究法的操作过程,下面以“远程教育中的评价”这一研究主题的文献研究作为应用案例,以使读者有一个直观的认识。 文献搜集:下载题录信息
从图3中可以看出,“远程教育中的评价”得到了更多关注。接着采用自然语言处理技术对文献题录信息中的摘要进行分句操作,并提取题录信息中存在的术语,得到句子数据表和术语数据表,然后用术语数据表对句子数据表进行分词操作,得到“句子-术语”对应表。 文献综述:发现高频术语,绘制术语网络关系图 (2)发现高频术语 在“句子-术语”对应表的基础上,我们计算得出86篇文献共有术语284个,其中频次排名前30位的术语如表5所示。 从表5可以看出,当前“远程教育中的评价”领域,“教学质量”、“网络学习”、“网络教学”是主要的关注对象,应该也是评价对象,并强调“评价模型”、“评价体系”、“评价系统”、“评价指标体系”的建立,“电子学档”应该是最为常用的评价工具和方法,其他的工具还有“评价量规”,常用的评价方法还有“形成性评价”和“综合评价”。通过列举高频术语,就是我们对文献调研的领域“远程教育中的评价”关注重点和话语体系有了一个概要的认识,为我们进一步开展有针对性的文献研读指明了方向。 由于我们的文献研究重点是发现评价相关知识,那么我们可以再来看看284个术语中以“评价”结尾(即以“评价”为中心,可视为“评价”的下位概念)的术语,如表6所示。 这38个术语中,依据术语的短语结构(主谓式和偏正式),可将这些术语分类两大类,其中主谓式术语中,主语其实是谓语“评价”的对象,这些术语如表7所示: 从表7中的术语,我们可以对当前“远程教育中的评价”领域所关注的对象有一个概要的了解,这些对象包括各类“学习”、“教学”、“教育”、“资源”以及“学校”。 在偏正式术语中,修饰成分表明“评价”的方法或手段(“自我评价”和“专家评价”属例外),这些术语如表8所示(每一行表示更细的分类)。 从表8中的术语,我们可以对“远程教育中的评价”领域已经采用的评价方法或手段有一个概要的了解,这些方法或手段包括“电子档案袋”、“量化”、“模糊”、“网络”等。 (2)绘制术语网络关系图 通过频次来了解术语的重要性只是对“远程教育中的评价”知识体系的构成元素的认识,要想获得对该知识体系较为全面的认识,我们必须借助绘制术语网络关系图。笔者选取术语频次排名位于前50的术语,并计算这50个术语的共现关系,然后使用UCINET软件绘制网络图,以直观的形式展示术语之间的共现关系,得到的结果如图4所示。 从图4中可以了解到,这50个术语中绝大部分术语是直接关联或间接关联的,“网络学习”、“教学质量”、“评价模型”、“学习评价”等术语处在较为核心的位置。其中,与“网络学习”有关系的术语有“电子学档”、“评价量规”、“形成性评价”、“评价体系”、“评价模型”、“评价模式”、“评价指标体系”等,这就给我们关于“网络学习”评价研究的一个概貌。如果我们想进一步了解与“网络学习”相关的术语,从而对“网络学习”的评价研究有一个更全面的认识,我们可以进一步以“网络学习”为中心绘制共现关系图,得到如图5所示结果。 借助表9,研究人员可对这些文献进行逐篇阅读,以实现对有关“网络学习”评价研究的深入认识。 案例小结 通过上述应用案例的展示,技术支持的文献研究法不仅能够从宏观方面快速把握“远程教育中的评价”这一研究主题的知识体系,如了解核心术语、评价对象、评价方法,并了解术语间的关系,这在以往纯人工的文献研究方法是难以做到的。在对核心术语和术语关系把握的基础上,可以更有针对性地开展文献研读,使文献研读工作更聚焦、更高效。 五、结语 本文重点探讨了数字化研究中信息技术的计算功能包括数据收集、数据分析、文本挖掘和可视化等方面的应用,尝试对文献研究法加以改进。通过案例分析表明,技术支持的文献研究法在处理海量文献、快速把握已有研究的基本状态、帮助研究人员聚焦文献研读重点等方面有独特优势。当前,教育研究领域的数字化研究探索方兴未艾,我们教育技术工作者在教育科研领域具有利用信息技术开展研究的优势,应该承担起探索教育领域的数字化研究理论与方法的重任,并最终将数字化研究在整个教学科学研究领域推广应用,提高研究的效果、效率与效益。(原载:现代教育技术 [J].2010,(6): 29-34.) 参考文献: [1] 顾小清,李雪.信息化科学研究及其教育应用综述[J].开放教育研究,2008,(4):15-21. [2] e-Research. Accessible via[DB/OL]. <http://blog.edu.cn/user1/7713/archives/2007/2006210.shtml, [3] Anderson, T., & Kanuka, H.(2002). E-Research: Methods, Strategies, and Issues[M]. [4] Peter Halfpenny(2007).Looking ahead: innovations and issues for the next ten years[R]. Accessible via [5] 孟庆茂.教育科学研究方法[M].北京:中央广播电视大学出版社, 2001: 80. [6] 傅骞,魏顺平,王斌,路秋丽(2008). 教育技术领域术语提取研究[J]. 现代教育技术,2008,(5):60-65. [7] 魏顺平.基于文献文本的概念图构建方法——以协作学习领域概念图构建为例[J].中国远程教育,2008,(2): 47-52. 作者单位:中央电大 |
联系客服