打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
信息可视化分析工具的比较分析

1 引言

大数据时代,信息呈现出数据量大、价值密度低及快时效等特点,人们保存

、检索、分析及利用能力面临着巨大的挑战。信息可视化工具的出现,使得大规模非数值型信息资源得以视觉呈现,为人们理解和分析数据提供了帮助。信息可视化工具种类繁多,Cite Space、Ref Viz Hist Cite 3 种广受关注。本文在应用层面对这 3 款工具进行同源数据的对比分析,剖析各个分析软件在学科知识领域应用中的优缺点及各自的特色。

本文的文献数据来源于美国Thomson Scientific集团开发的web of science平台,该平台收录学科齐全,所收录的引文数据质量较高。在web of science平台,时间跨度选择all years,数据库来源选取SCI-EXPANDEDSSCIAHCIIC以及CC-EXPANDED,数据类型选择all types,检索词为:TITLE = “digital librar*”,经过学科提炼得到4961条数字图书馆方向的文献数据,将这些数据以“txt” 文本文档形式下载并保存,数据采集日期为20142 12日。

2基于用户视角的引文分析软件的比较分析

2. 1界面设计比较分析

相同点:Cite SpaceHist Citeef Viz 3 款软件的主界面均包含菜单项、显示框和参数设置项。Cite Space的菜单项包含了文件、项目、数据、网络、可视化等栏目,显示框包含了数据基本信息和软件运行结果报告两部分,参数设置项包含了时间切割、术语来源、术语类型、节点类型、图谱精简和可视化类型等部分。如图1 所示。Hist Cite 的菜单栏包含了文件选项、数据分析、可视化窗口等栏目,在主界面上可以依据记录、作者、期刊等参数对数据进行统计排序并显示,参数设置项包含了国家和地区、机构、语言、文献类型、出版年份等选项,如图2 所示。


ef Viz工具的菜单栏包括文件选项、可视化图谱类型选项、工具栏和帮助菜单栏目,在主界面上有 galaxy matrix 两种显示类型,galaxy 显示的是文献聚类图谱,而 matrix 图谱则显示主题词之间或者主题词和文献分组之间的关系,ef Viz 主界面提供两个基本参数控制图谱类型,分别为 galaxy matrix,如图 3 所示。


不同点:Cite Space 的操作界面提供了数据库类型选项,而且提供了项目位置、数据存放位置、数据分析过程和结果报告等选项。Cite Space 可以同时运行多个窗口,以不同窗口显示各节点的引文历史轨迹图; Hist Cite 仅支持运行一个窗口;ef Viz 的节点显示窗口都集中在主界面上,一次只能打开一个窗口。Cite Space具有良好的提示功能,当软件无法运行数据时会弹出消息框,提示数据格式是否正确、或是否以“download. txt”命名; ef Viz 没有相应提示,主界面给用户提供网络或本地数据库两种选择,当无法将数据导入Hist Cite 时,软件仅提供“文件无效”、“格式有误”“路径错误”等信息,没有向用户提供更为明确的提示信息。

参数设置方面,Cite Space 有时间段分割、网络精简类型、Threshold InterpolationTop N per slice; ef Viz 参数方式少,仅按照 galaxy matrix 控制图谱类型; Hist Cite 提供的参数设置方法单一,仅提供根据如作者、引文、地

区显示结果。

2. 2 软件操作难易程度分析

相同点: Cite SpaceHist Cite ef Viz 3 款软件均为英文版本,尚没有简体中文版本,这无疑加大了用户学**和使用的难度。

不同点: 在人机交互方面,Hist Cite ef Viz 这两种工具界面简洁、操作步骤简单,软件参数设置简单,比较容易掌握; Cite Space 在环境支持方面,其运行需要 JAVA 环境的支撑,不同的软件版本对操作系统有不同的要求;功能方面,Cite Space 中通过很多参数干预结果。

2. 3数据处理功能分析

2. 3. 1 数据处理与转换功能

相同点: 3 款软件均可处理 web of science 平台的数据,必须以download. txt”的形式命名数据文件,仅支持英文字母或者数字。

不同点: 如果在Cite Space中处理web of science数据,则需要将从SCI 下载的原始数据集以“download. txt”格式另存。打开Cite Space,利用引文数据转换器将数据集导入转换并输出单独的文件夹中;Hist Cite也需作数据处理和转换,对比Hist Cite的样本数据可发现,每条记录之间均存在一个空行,而从SCI 下载的数据缺空行,因此需要Notepad + + 软件处理,利用替换功能,将“E \ n PT换为“E \ n \ n PT”,实现了在每条记录之间加空行,该软件通过原始数据所在文本文档导入数据,但是文本文档的命名不能出现中文; ef Viz通过原始数据所在文本文档直接导入数据,保证文本文档是“download. txt ”格式即可。

2. 3. 2支持的语言类型比较

相同点: Cite SpaceHist Cite 和Ref Viz 3款软件均支持英文数据的识别和处理,英文数据来源主要为web ofscience数据库平台。

不同点: Hist Cite ef Viz 相比,Cite Space 可以支持中文数据的处理,中文数据的来源为南京大学中文社会科学引文索引数据库 ( CSSCI) ,只是需要做格式和编码的转换。

2. 4 节点控制分析

2. 4. 1 节点的缩减功能比较

CiteSpace具有良好的节点选择缩减功能,第一种方法在主界面中有4 个选项框用来控制节点的形成和数量。第一个为Top N Slice,提取时间段被引频次最高的前N 个,系统初始值为30N 越大,则形成的图谱相对更加全面,第二个为 Top N% per slice,将每个时间段的节点按照被引频次降序排列,仅保留前N%,第三个为ThresholdInterpolation,可设置 CCC CCV,最后一个选项框为 Select Citers,按Continue,再设定方法 12 3。第二种为在形成的图谱中右击某个不被显示的节点,选择hide node”可隐藏节点,通过隐藏节点便可以达到控制图中节点数量的目的。Hist Cite则通过LCSGCS 两种模式和count ” value ” 控制节点的数量,例如在 LCS 模式下,选择“count”则表示显示在当前文献集合中被引频次最高的节点数量,软件初设值为30,选择value”代表显示在当前文献集合中被引频次超过设置值的节点。通过count”value”可以控制形成图谱中显示的节点数量和权值。Ref Viz 尚没有节点数量缩减控制的功能。

2. 4. 2 节点间的位置控制比较

CiteSpace通过3 种方法控制图谱中节点的位置,一种是依据被引频次控制节点位置,以节点被引频次的多少控制图谱中节点的数量和位置。另外一种是依据“centrality”控制图谱中节点的数量和位置,节点的中心性越高,反映了网络中任意两点之间经过该节点的最短路径越多。最后一种方法为通过在图谱中拖动节点来控制节点的位置,这表明节点在图谱中的位置并非绝对,Cite Space 图谱的动态性更强,Cite Space没有对节点的绝对位置进行控制。Hist Citeef Viz不能进行节点间位置的控制。

2.5可视化图谱比较

2. 5. 1 图谱的显示方式

CiteSpace 的图谱显示方式多样,比如聚类图 ( cluster ) 时间图谱 ( timeline ) 和时区图谱 ( timezone )。Ref Viz以文件夹的形式将所有文献分组并编号形成文献聚类视图。Hist Cite 则依据时间分区形成了节点之间引用关系视图。

2. 5. 2 可视化图谱的类型比较

通过Cite Space 可以形成很多可视化图谱,比如文献聚类视图、国家和地区合作网络、著者合作网络、时间和时区图谱等等。Ref Viz 的可视化图谱类型也较多,比如在 Galaxy 视图下的文献聚类视图,Matrix 视图下根据相关度或者数值形成的主题词共被引图谱和主题与文献分组共引视图等。

Hist Cite 的可视化图谱仅为引文编年图,但是 Hist Cite 具有很强大的文献计量统计功能。

2. 5. 3 可视化图谱色彩比较

CiteSpace 形成的图谱为彩色图,如图 4 所示,通过不同的颜色反映节点不同的被引年份,而且用大红色和玫瑰红色代表突变性很强的节点,用来反映突变术语和研究前沿。节点之间的连线代表它们之间的共被引关系,连线的颜色代表节点之间首次共被引的年份。

通过节点之间连线的粗细和各个节点的大小,颜色的差异很容易辨识节点的被引以及共被引情况。


借助 Hist Cite 形成的引文编年图颜色较单一,为黑白色,不易辨识节点之间的种种关系以及节点的被引历史,缺乏生动性。Ref Viz Galaxy 视图中,绿色代表选中的文献分组,蓝色代表未选中的记录,通过节点的颜色及大小很容易辨识不同的文献组和文献,Matrix 视图中颜色更丰富。Relevance 模式中红色表示主题词有强关联性,蓝色表示关联性较弱,白色区域表示没有关联性。

2. 5. 4 可视化图谱解读难易度

CiteSpace 的可视化图谱清晰,易解读,通过不同的颜色、节点的大小、节点之间的位置很容易辨认被引频次高的节点,很容易了解数字图书馆文献的力量分布、核心作者、热点等,想了解数字图书馆的研究前沿,根据“burst”值对图谱进行操作,就会形成以红色的节点。

HistCite 的图谱解读难易程度取决于节点间的被引频次和节点的数量,如果引文编年图中的节点过多且被引频次过多,则图谱中很多连线交织,形成一个很复杂的网络图,且图谱是黑白色,增加了图谱解析的难度。此外,因其图谱中节点之间的连线粗细一致,研究人员无法辨析关键节点之间的共被引关系。

ef Viz Galaxy 视图中,软件将所有文献进行分组编号并以文件夹的形式展现出来。文献分组的大小反映了该组文献数量的多少,文献分组之间的距离反映它们的研究内容的相似程度,通过文献分组密集的区域很容易辨识数字图书馆领域的研究方向。

Matrix 视图中,图谱以不同的颜色反映主题词之间或主题词同文献分组间的关联。

3基于功能视角下的引文分析软件比较分析

从数字图书馆方向的国家与机构、著者、期刊、关键文献、研究热点及趋势几个方面对 Cite SpaceHist Cite 和Refviz 3 款软件进行对比分析。

3. 1 国家与机构分析功能

相同点: Cite Space Hist Cite都有揭示国家和机构的功能; 都提供国家和机构统计分析; 两款工具都可以对国家或者机构节点信息进行排列,Citespace 可依据被引频次的高低对文献信息进行排列; 两者的国家和机构统计信息均以表格的形式显示,但是两者的统计表格均不能被直接输出。

不同点: Cite Space 的国家与机构显示多样化,以表格和视图的形式显示国家与机构的信息,Hist Cite 只能以表格的形式显示; Cite Space 可以视图的形式揭示国家与机构的合作情况,以节点和连线的形式反映国家与地区间的关联度,依据 Hist Cite 无法揭示国家与机构的合作关系; 在排列依据方面,Cite Space 除了依据频次统计,还提供中心度,Hist Cite 可揭示国家或者机构在当前文献中的被引数; 在时间方面,Hist Cite 的国家与机构统计中缺乏时间因素。

3. 2 作者分析功能

相同点: Cite Space Hist Cite均具有揭示重要作者的功能; 均以图表的形式反映某领域的重要作者; 两者都能以被引频次等属性对作者进行统计; 两者形成的统计信息表格均不能直接被输出,需要人工辅助统计或者用截图软件导出。

不同点: Cite Space 以可视化视图展现著者的共引情况,Hist Cite 不能揭示著者间的合作情况; Cite Space 依据中心性和被引频次共同确定重要作者,而

Hist Cite 依据发文量和在当前文献集合中的被引数判断重要作者; Cite Space

提供了突变率检测的功能,通过 burst 值可寻找短期内引用次数激增的作者,

Hist Cite 不能揭示著者的变化程度。

3. 3 关键文献分析功能

相同点: Cite SpaceHist Cite ef Viz 都有揭示学科领域关键文献的功能; 都是从某领域文献集合与被引文献集合的关系中寻找关键文献; 均能够以可视化图谱的方式展现文献数据之间的种种关系; 均具有对关键文献进行统计并显示的功能。

不同点: 从分析方法来看,Cite Space 软件以被引用次数和中心性为标准来判断文献的重要程度,Hist Cite 的关键文献分析功能以当前文献集合为分析对象,Ref Viz 将文献按内容和关联度分组,以文件夹的方式展现文献组情况; 从重要性参数看,Cite Space 以被引频次、共引次数、突变率及中心性作为衡量标准,Hist Cite LCSGCS 为参数,Ref Viz 以文献分组数量及分组的位置作为衡量文献重要性的标准。

3. 4 研究热点和趋势分析功能

相同点: Cite SpaceHist Cite以及ef Viz均具有识别某一个学科领域的研究热点的功能; 都是从文献数据的题录部分提取词组的方式来确定热点主题词; 均能对提取的主题词或者关键词进行词频统计并分析。

不同点: 从分析方法来看,Cite Space 以词频统计及共词方法分析主题词之间的引用是共引关系,Hist Cite 以词频分析方法统计热点主题词,Ref Viz 以词语加权方式将词语按照重要性分布; 从热点词组的显示来看,Cite Space以图谱方式显示关键词间的引用关系,从引用历史轨迹可查看主题词年份分布,Hist Cite只能以表格的方式对主题词进行统计,无法揭示主题词之间的关系,Ref Viz Matrix 视图能够揭示热点主题词之间的关系; 从主题词的衡量指标看,Cite Space 以中心性和被引频次作为衡量依据,此外依据突变率分析词语的变化趋势,Hist Cite TLCS TGCS 作为衡量热点主题词的依据,Ref Viz 依据词权确定主题词,另外对热点词语进行权值干预; 从揭示研究前沿的程度看,Cite Space 依据主题词的 burst 值来判断某领域的研究前沿和发展趋势,而 Hist Cite 和Ref Viz 对研究前沿术语的揭示功能方面比较弱。

4 结论

经过以上的比较,可以发现这 3 种软件在用户设计、功能设计方面都具有相同的特性,但具体从每一个比较标准来看,各软件之间确实又存在着差别,也正是这些差别使得不同的软件有其各自不同的使用领域与范围。

CiteSpace 能够显示一个学科或知识域在一定时期发展的趋势与动向,形成若干研究前沿领域的演进历程; ef Viz可以确定和精炼领域关键词,展示发展的热点趋势,确定顶尖杂志发表的文章主要是什么方向; Hist Cite 能够用图示的方式展示某一领域不同文献之间的关系,帮助我们绘制出一个领域的发展历史,定位出该领域的重要文献,以及最新的重要文献。


本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
自学——从0开始学CiteSpace
理论研究 | 基于中国知网的地下空间规划文献可视化分析
4.CiteSpace之网络的聚类分析
HIST 第三帝國的興和亡 (下)
如何解决citespace聚类色块同色的问题?
这款引文在线生成器太好用了~​简直没EndNote什么事了!
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服