2021国际万维网大会Seoul Test-of-Time Award公布：《推特信息可信度》

作者：熊宇轩编审：王新凯

排版：王落尘

国际万维网大会 The Web Conference（以前称世界互联网大会，WWW）是由国际万维网会议委员会发起主办的顶级国际学术会议（CCF 推荐 A 类会议），每年举办一届。大会在互联网标准制定、互联网应用技术、互联网内容分析等研究领域享有盛名，在全球范围内为推动互联网技术的发展起到了重要作用。

在 2014 年于韩国首尔举办的 WWW 大会上，组委会决定设立「Seoul Test-of-Time Award」奖项，以表彰历史上对推动互联网科学发展起到重要作用的优秀论文。

4 月 23 日，国际万维网会议委员会宣布，今年的「Seoul Test-of-Time Award」大奖授予于 WWW 2011 上发表的论文「Information credibility on twitter」，该论文的作者为西班牙庞培法布拉大学教授 Carlos Castillo、智利大学副教授 Barbara Poblete、智利圣玛利亚理工大学副教授 Marcelo Mendoza。

该论文是社交网络信息可信度分析的里程碑式工作，它通过经典的统计分析和机器学习方法巧妙地设计了用于自动评估推特帖子可信度的特征，详细地探究了各特征对推文可信度评估任务的影响，对后继研究具有巨大的启发意义。

图 1：从左至右分别为「Information credibility on twitter」作者西班牙庞培法布拉大学教授 Carlos Castillo 、智利大学副教授 Barbara Poblete、智利圣玛利亚理工大学副教授 Marcelo Mendoza。

该论文的第一作者西班牙庞培法布拉大学教授 Carlos Castillo 是数据挖掘与信息检索领域的权威学者。据 AMiner 统计，截至 2021 年 3 月，Carlos Castillo 共发表论文 315 篇，总引用量高达 16,631，H - 指数为 61。Carlos Castillo 教授曾获得 WSDM 2008「十年时间检验论文奖」、WI 2009、ISCRAM 2013、ICAIL 2019、ISCRAM 2019 最佳论文奖，以及 WI 2010、CIKM 2009 最佳学生论文奖。同时，Carlos Castillo 教授也获得了 AMiner 评选的 2018 数据挖掘领域最具影响力学者奖、2018 信息检索领域最具影响力学者奖、2020 AI 2000 信息检索与推荐领域全球最具影响力学者、2020 AI 2000 数据挖掘领域全球最具影响力学者。

Carlos Castillo 个人学术主页：https://www.aminer.cn/profile/carlos-castillo/53f7aaf7dabfae92b40d471f

信息可信度分析研究历史

在本文发表之前，研究人员针对传统社交媒体和博客上的新闻可信度进行了大量的研究。

在 Twitter 新闻可信度分析领域，Schwarz 和 Morris 于 2011 年的人机交互顶级会议 ACM CHI 大会上在论文「Augmenting Web Pages and Search Results to Support Credibility Assessment」中指出，向用户提供互联网内容的可信度估计结果是非常有意义的。相关研究发现，在缺乏外部信息的情况下，对于在线内容可信度的感受会在很大程度上收到与风格有关的特征的影响（Flanagin et al., 2007）。而用户也可能会由于推文作者的性别而转变其对推文可信度的感受（Schmierbach et al., 2010）。与传统媒体相比，当相同新闻标题出现在 Twitter 上时，用户往往会觉得新闻的可信度有所下降。

用户之所以不太信任 Twitter 上的新闻是由于当下主流的搜索引擎都会突出展示「实时网页」（博客和微博帖子）的搜索结果，对于热门的话题更是如此。这种现象促使一些别有用心的人通过 Twitter 发送垃圾邮件，吸引用户使用相关产品或服务。这种现象也使得传播谎言和错误信息的攻击的潜在影响上升。有时，Twitter 也会被用作一种政治宣传的工具。此外，错误的信息也会在不经意间于 Twitter 上传播。为了自动识别出不可信的推文，本文作者 Carlos Castillo 教授试图寻找可以被用来自动近似用户对推文可信度感受的因素。

在这篇论文中，作者分析了通过 Twitter 传播的新闻的可信度。在此之前，研究工作往往表明在 Twitter 上发布的信息大多数是真实的，但是实际上 Twitter 服务也常常在无意间被用于传播错误或虚假的信息。在本文中，作者提出了自动评估给定的 Tweet 文章的可信度的方法。具体而言，作者对与热门话题相关的微博帖子进行了分析，并根据从中提取到的特征将帖子分为「可信」和「不可信」两类。在本文中，作者使用到的特征包括用户发布帖子、转发帖子的行为，帖子的文本，以及对外部信息源的引用。在评估本文提出的分析方法时，作者使用了大量对于近期发布的 Twitter 帖子样本内容可信度的人工评价。研究结果表明，我们可以测量出信息传递方式之间的差异，这些差异可以被用来自动地对信息的可信度进行分类，分类的准确率在 70%-80% 之间。

本文发表之后，在世界范围内引起了一阵对真假 Twitter 新闻分析的研究风潮。在本文的启发下，Vosoughi 等人在全球最权威的学术期刊「science」上发表论文「The spread of true and false news online」（截至 2021 年 3 月引用量为 2,880），研究了 2006 年至 2017 年间在 Twitter 上发布的所有经过验证的真假新闻的传播特性差异，并发现虚假信息比真实信息传播地更远、更快、更深、更广，其中虚假政治新闻的影响力较为显著。IEEE Fellow、亚利桑那州立大学刘欢教授团队在数据挖掘顶会 KDD 2017 上发表论文「Fake News Detection on Social Media: A Data Mining Perspective」（截至 2021 年 3 月引用量为 1,132），从心理学、社会学理论、数据挖掘视角下的现有算法、评价指标和代表性数据集等方面对社交媒体假新闻检测任务进行了综述。Gupta 等人在顶级学术会议 WWW 2013 上发表论文「Faking Sandy: characterizing and identifying fake images on Twitter during Hurricane Sandy」（截至 2021 年 3 月引用量为 527），针对包含虚假图片的推特帖子的特征进行了分析，从而理解虚假图像传播的时间特点、社会声誉和影响模式，并且实现了自动识别推特上发布的真实图片和虚假图片。Morris 等人于人机交互领域顶级学术会议 CSCW 2012 上发表论文「Tweeting is believing?: understanding microblog credibility perceptions」（截至 2021 年 3 月引用量为 486），通过实验系统地评估了推特帖子的若干特征对可信度评级的影响，发现用户难以仅仅凭内容判断帖子的真实性，他们会收到用户名等启发式因素的影响，因此推文作者可以使用某些策略来提高帖子在读者眼中的可信度。

下面，AMiner 将对本次获得「Seoul Test-of-Time Award」大奖的论文「Information credibility on twitter」进行详细的解读。

一、引言

作为微博类服务的先驱，Twitter 在世界范围内已经积累了数以亿计的用户量。人们可以通过各种各样的方式（例如，电子邮件、短信、Web 网页）使用 Twitter 服务，Twitter 有助于我们将信息实时传播给大量的用户群体。因此，人们可以通过 Twitter 直接从新闻来源或事件发生的现场直接传播突发的新闻。

一些用户通过提供第一人称的观察或转发外部的资讯在 Twitter 上生成新的信息。其中，人们认为来自官方和信誉良好的来源的信息很有价值，并且会被用户主动地搜寻和传播寻。其他的用户会在连续地整合并阐述这些信息，从而产生一些衍生的解释。

在上述过程中，我们可以非常迅速地收集、过滤、传播信息，但是却可能无法区分真实信息和虚假谣言。然而，我们也注意到，被证明是错误的信息比正确的信息更容易受到质疑。这似乎表明，社交网络在某种程度上倾向于支持真实的信息，而不是虚假的谣言。

社交媒体可信度

本文研究的重点是通过社交网络传播的信息的可信度。上世纪 90 年代，Fogg 和 Tseng 在论文「The elements of computer credibility」中将可信度描述为「由多个维度构成的感知质量」。在本文中，我们将可信度定义为「为被相信提供合理的理由」。我们首先要求用户说明他们是否认为某一组消息与某个有新闻价值的事件（而不是仅仅是非正式的对话）相对应。接下来，对于那些被认为与有新闻价值的事件相关的消息，我们要求另一组用户判断这些消息可能是真的还是假的。

本文的主要目标在于确定是否自动评估 Twitter 上内容的可信度水平。本文作者假设，社交媒体环境中本身就存在一些信号，可以让用户评估信息的可信度。在这一假设下，我们将社交媒体可信度定义为「仅使用社交媒体平台中可用的信息来评估信息可信度」的诸多因素中的一个层面。

本文的贡献

本文提出的方法以监督式学习为基础，作者首先为学习 Twitter 的可信度构建了一个数据集，他们通过研究突发活动来提取一组相关的讨论话题。然后，作者令一组人类评价者根据话题是否对应于某个有新闻价值的信息 / 事件，或非正式的对话进行标记。在创建了数据集后，另一组评价者会对具有价值的新闻信息 / 事件的可信度水平进行评估。接下来，我们从每个带标签的主题中提取相关的特征，并使用它们来构建一个分类器，该分类器试图自动确定某个话题是否对应于有新闻价值的信息 / 事件，然后自动评估其可信度水平。

二、数据收集

在构建数据集时，作者重点关注了对时间敏感的信息，特别是当前的新闻事件。

自动事件发现

在本文中，作者使用论文「 TwitterMonitor: trend detection over the twitter stream」中的 Twitter 信息监控器进行 Twitter 事件的发现，这种在线的监控系统可以检测到从消息中发现的关键字集合中频率突然增加的关键字。对于每一个检测到的突发事件，Twitter 监控器可以提供一种基于关键字的查询。这里的查询形如数学公式: $ (A\wedge {B}) $，其中 A 为关键字或标签的合取，而 B 则是关键字或标签的析取。作者收集了以每次突发事件的关键字频率高峰为中心的 2 天内的时间窗口中与上述查询相匹配的推特帖子。作者将这些由这些推特帖子组成的子集称为「话题」，在本文中，作者一共收集了超过 2,500 个话题。

表 1：2010 年 4 月至 7 月间的话题示例。属于某类话题的推特帖子必须包含图 x 中该时段所有的粗体字和至少一个非粗体字。

如表 1 所示，本文作者将所有的推特帖子划分为「新闻」和「对话」两类。符合每种话题的推特帖子数差异很大，其分布如图 2 所示。在本文构建的数据集中，作者将每种帖子的数量上限设置为 10,000，这部分帖子占所有推特帖子总数的 99%。

图 2：每个话题的推特帖子数量分布

对具有新闻价值的话题进行评估

在上述第一轮标注中，作者试图将传播与新闻事件相关的信息的话题与对应于个人观点的话题区分开来。接下来，为了评估话题是否具有新闻价值，作者使用了土耳其机器人众包服务。作者向众包平台上的评价者展示每个话题下的 10 条推特帖子样本，以及通过 Twitter 信息检测器得到的关键词列表，并且让评价者判断是否大多数消息都传播有关某个特定事件的新闻（将样本标注为「NEWS」），或者大部分是评论或对话（将这类样本标注为「CHAT」）。对于每一个话题，作者还要求众包评价者给出对该话题的简短描述，我们可以通过这种描述语句过滤掉没有道理的判断答案，从而减少了评价系统中无效点击的数量。

图 3：话题新闻价值标注系统用户界面

在本例中，作者随机地从 Twitter 信息监测器收集到的数据中挑选出了 383 个主题，并通过土耳其机器人对其进行评估。对于每个任务（被称为「人类智能任务」——HIT）而言，作者随机对主题进行分组，每组包含 3 个主题。本文作者要求评价者在十天内对 HIT 任务进行评估，每个 HIT 都会被 7 个不同的评价者评估，没有提供简短描述性语句的评价结果将会被过滤掉。如果 7 名评价者中有超过 5 名评价者都为某个话题给出了相同的标签，那么该标签就会被赋予给该啊护体。如此一来，由于没有达到足够的共识，有 35.6% 的话题（136 个话题）被赋予「不确定」的标签，被赋予「新闻」标签的话题占 29.5%（113 个话题），被赋予「对话」标签的话题占 34.9%（134 个话题）。

可信度评估

为了对可信度进行评估，作者对 2,524 个通过 Twitter 信息检测器发现的帖子应用了基于事件监督的分类器。该分类器将 747 个帖子标注为「新闻」，并使用这些实例进行众包评估，从而为每个帖子给出可信度等级。

在初步进行可信度评估是，几乎所有的帖子都会被标记为「可能正确」，这对于判断推特帖子的可信度用处不大。因此，在可信度评估过程中，作者考虑了 4 个等级：（1）基本肯定是真实的（306 例，占比 41%）（2）可能是虚假的（237 例，占比 31.8%）（3）几乎肯定是假的（65 例，占比 8.6%）（4）无法判定（139 例，占比 18.6%）。此时，作者仍然要求每个评估者给出对答案的简短证明语句，并且会忽略掉没有证明语句的评价结果。

图 4：可信度评估用户界面

三、自动的可信度分析

在本章中，给定一系列与某些话题相关的消息，作者提出的方法可以自动地确定具有新闻价值的话题，并自动地为每个具有新闻价值的话题赋予一个可信度等级标签。

社交媒体可信度

作者假设，我们可以自动地评估通过社交媒体传播的信息的可信度等级。为了评估信息的可信度，我们可以考虑一些社交媒体平台自有的因素：

（1）特定话题引起的反应，以及用户讨论该话题时所表达的情感（2）用户传播信息时的确定性程度，即他们是否对获知的信息产生质疑（3）外部引用的信息源（4）传播信息的用户的特点。

表 2：描述话题的四类特征

作者将描述每个话题的特征总结在了表 2 中，根据这些特征所涉及的范围，可以将它们分为四类：基于消息的特征、基于用户的特征、基于话题的特征、基于传播的特征。

基于消息的特征：包括「Twitter 相关的特征」与「Twitter 无关的特征」。Twitter 无关的特征包括消息的长度、文本是否包含某些感叹词或问题、一条消息中表达积极 / 消极情绪的单词数。Twitter 相关的特征包括推特帖子是否包含某种标签，该帖子是否是转发帖。
基于用户的特征：发帖用户的年龄、粉丝数、关注的人数、以往的发帖数。
基于话题的特征：根据前两项特征整合而来。例如，包含 URL 链接的帖子比例，带有标签的帖子比例，以及集合中积极语义和消极语义的比例。
基于传播的特征：与根据转发情况构建的传播树相关的特征，包括转发树的深度、某个主题的初始推特帖子数。

自动地发现具有新闻价值的话题

在本文中，作者训练了一个有监督的分类器来判断某个推特帖子的集合是否描述了具有价值的新闻事件，在有监督训练中使用了通过土耳其机器人得到的标签。作者训练了一个考虑三种活动类别的分类器，执行了一种对成本敏感的训练过程，从而增加了对「新闻」类别中实例的预测的相关性。在训练过程中，作者使用了一个成本矩阵，而在预测时则忽略了成本。作者构建了一个成本敏感的树，根据假正例和假负例这两类误差的相对成本对训练实例进行加权。

表 3：具有新闻价值的话题分类结果总结

此外，作者还对训练数据集采用了自助抽样策略，在假设从三类实例中抽取样本的概率服从均匀分布的情况下，通过替换采样得到数据集的随机样本。接着，作者还进行了三折交叉验证。

就采用的分析模型方面，作者尝试了包含支持向量机、决策树、决策规则、贝叶斯网络等学习范式。上述技术得到的分类结果大致相当，其中 J48 决策树取得了最佳性能，通过该方法得到的实验结果如表 3 所示。有监督分类器获得了高达 89% 的分类准确率。

表 4：具体的话题分类结果

Kappa 统计量说明本文构建的分类器的预测性能要明显优于随机预测器。对于每一类话题的详细评估结果如表 4 所示。

可信度任务的特征分析

作者对各种特征值的分布进行了分析。为此，作者根据可信度任务提供的标签，在 747 个新闻集合的案例中进行最佳特征选择。最终，作者选出了如表 5 所示的 15 种特征。其中，前四种特征考虑了用户的特性，例如：用户使用 Twitter 的时间、曾经发布推文的数量、粉丝 / 朋友的数量。另外，还有十种特征是根据每个新闻事件的推文集合计算得到的聚合特征。其中，基于情感分析的特征有非常明显的作用。最后，作者还考虑了从转发传播树中提取的信息。

表 5：使用最佳属性选择策略选出的最佳特征

为了说明上述特征的判别能力，作者绘制了如图 4 所示的箱线图。

图 5：根据 15 中特征判断基本肯定真实（A）和可几乎肯定虚假（B）的分布的箱线图。

如图 5 所示，这两类话题之间存在一些显著的区别：（1）更加活跃的用户倾向于传播更可靠的信息，拥有新账户但是有很多粉丝和关注者的账户也是如此。（2）基于情感分析的特征对于可信度预测任务也很重要，表达了情感的推文一般来说更可能是不可信的信息，其中带有积极情感的推文比带有消极情感的推文可信度更低。（3）带有「问号」或「微笑」表情的推文往往也更加不可信。（5）当许多推文都提到同一个用户时，往往会有相似的可信度。（6）在传播树的某一级上，拥有转发数较多的推文更可信。

可信度的自动评估

为了预测 Twitter 事件的可信度，作者训练了一种有监督的分类器。在这里，作者重点关注检测出被认为「几乎肯定真实」（A 类，共 306 个话题）和「其它新闻」（B 类，共 302 个话题），而不考虑被标注为「无法确定」的话题，因此两类用于分类的数据是十分平衡的。

在众多学习算法中，J48 决策树取得了最佳的分类性能。具体而言，作者对训练集 / 验证集采用了三折交叉验证策略。可信度分类器的实验统计结果如表 6 所示：

表 6：可信度分类

如表 6 所示，有监督分类器的准确率高达 86%。Kappa 统计量说明该分类器显著优于随机分类器。每一类话题的详细可信度评估结果如表 7 所示。

表 7：可信度分类结果

最佳特征

图 6：为可信度分类任务构建的决策树

本文构建的 J48 决策树如图 6 所示，根据 GINI 系数划分标准，作者列举出了一些对于可信度分类任务最关键的特征：

基于话题的特征：包含 URL 链接的推文为决策树的根。基于情感的特征（例如，负面情感的比重或包含感叹词的推文的比重）与树的根非常接近，它们是很重要的特征。具体而言，我们发现，不包含 URL 的推文可能与不可信的新闻相关；另一方面，包含负面情感的推文与可信的新闻相关。当用户使用积极情感词语时也是如此：只有很少一部分带有积极情感词的推文与不可信的新闻相关。
基于用户的特征：值得注意的是，具有低可信度的新闻往往由之前很少撰写推文的用户传播。用户的朋友数量也是与决策树根距离很近的特征。
基于传播的特征：具有大量转发数的推文与可信的新闻相关。

上述结果表明，文本信息与可信度分类任务紧密相关。用户的意见使我们可以检测到有关某个新闻事件的社区的普遍看法。另一方面，基于用户的特征可以被看做用户在社区中声誉的重要指标。在可信的用户之间传播的消息也往往是可信的，这也说明 Twitter 社区起到了社交过滤器的作用。

进一步的可信度分析

作者研究了特定的特征子集对于可信度自动评估任务的影响。具体而言，作者考虑了以下 4 个特征子集：

文本特征子集：推文平均长度、基于情感的特征、与 URL 相关的特征、与标签计数相关的特征等 20 种特征。
网络特征子集：与消息作者相关的特征（粉丝数或朋友数）等 7 种特征。
传播特征子集：基于传播的特征、转发比重、推文总数等 6 种特征。
热门元素特征子集：分别包含最频繁出现的 URL、标签、提及的用户、作者共 4 中特征。

在该任务中，作者将每个特征子集作为训练数据集训练了一个 J48 决策树，此处同样采用了三折交叉验证策略。

表 8：使用不同特征子集进行可信度分类的实验结果

如表 8 所示，粗体字代表每一类度量标准和话题类别下的最佳实验结果。作者发现，传播特征子集和热门元素特征子集对于可信度评估十分重要。对于该任务而言，仅仅使用基于文本或基于作者的特征是远远不够的。对于不可信的新闻而言，使用基于传播的特征可以获得很高的真正例率。另一方面，可信的新闻往往更难以被检测出来。

图 7：可信度预测任务中考虑的特征散点图。黑色点代表可信信息，灰色点代表不可信信息。

为了说明可信度预测任务中各特征之间的依赖关系，作者绘制了特征对之间关系的散点图。如图 7 所示，大多数特征对之间的相关性都很低，而基于情感的特征之间则具有较强的依赖关系。

今日推荐：关于癌症，你需要知道这些

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。