打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
量化研究方法介绍 | 隐含狄利克雷分布(Latent Dirichlet Allocation,LDA)主题模型

随着数字化媒体的兴起,信息的爆炸式增长让我们难以有效地处理和理解海量的文档数据。文本挖掘(Text Mining)技术能够将大量文本数据转化为可理解、可用的知识,日益受到广泛关注。其中,建构主题模型(Topic Model)是文本挖掘中最强大的技术之一,能够用来识别文档主题、挖掘语料中的隐藏信息以及查找数据和文本文档之间的关系。与我们上一期介绍的内容分析法相比,以建构主题模型为代表的文本挖掘技术具有以下特点:

(以上表格参考钟智锦,王童辰《大数据文本挖掘技术在新闻传播学科的应用》[1] )

在机器学习和自然语言处理技术的发展下,隐含狄利克雷分布(Latent Dirichlet Allocation,LDA)主题模型成为受欢迎的建模方式之一,被越来越多的研究者用于对大规模文档数据进行分析。LDA主题模型方法可以自动挖掘文档数据中的主题和词汇之间的关联性,有助于我们更好地理解信息的内在结构和背后的逻辑。本文将介绍LDA主题模型的原理和应用步骤,结合上一期分享的文章《 “一带一路” 议题与国家品牌的可持续传播:基于 LDA 主题模型的实证研究》进行解析,希望能对你有所帮助!

01

一、基本思想及原理

LDA 主题模型 (Latent Dirichlet Allocation) 是Blei等人于2003年提出的一种动态文档主题识别模型[2] 。其基本思想是:(1)每个文档都是若干主题按一定比例随机混合而成的。例如,在双主题模型中,可以认为文档1是10%的主题A和90%的主题B的混合,而文档2是70% 的主题A和30%的主题B的混合,以此类推。概率越高代表此主题与文档的相关性越高。(2)其中,每个主题又是若干个词汇按一定比例随机混合而成的主题的特征可以用单词的分布来表示。例如, “国际合作”主题可能包含的词语有政府、沟通、互助等。

LDA主题模型分析过程中包含三个核心要素: 词汇、主题与文档。其任务就是以无监督计算的方式挖掘文档中不同单词的分布规律,将每个文档表示成一个词汇分布向量,然后通过对文本集合的分析,推断出每个主题的词汇分布和每篇文档的主题分布。

LDA主题模型的形成过程需要一些概率模型和数学算法的支持。要解释其原理,首先要了解以下几个概念:

01

词袋模型(Bag of words):词袋模型是一种常用的文本表示方法,用于将文本转换为向量形式,使用向量之间的距离或相似度度量文本之间的相似度,进行分类或聚类,以便进行机器学习和自然语言处理等任务。词袋模型假设一篇文档的生成是从一个词袋中不断取词的过程,只考虑单词出现的次数,而忽略单词之间的顺序和语法结构。例如,对于文本“人工智能在新闻领域的应用”,词袋模型会将它表示为向量[人工智能:1, 在:1, 新闻:1, 领域:1, 的:1, 应用:1] 。我们可以通过训练模型,使用特征向量预测文档所属的类别,即“与人工智能相关”或“与人工智能不相关”。

02

贝叶斯词袋模型(Bayes Unigram Model):贝叶斯词袋模型是一种基于概率的分类方法,它将每篇文本看作一个词袋,其中每个单词的出现概率是独立的,与其他单词是否出现无关。模型通过计算每个单词在文本中出现的概率,以及每个主题类别中出现每个单词的概率,来预测文本属于哪个主题。

例如,假设我们需要将一组新闻文章分类为“体育”、“娱乐”和“科技”三个主题类别。对于每个单词,我们可以计算它在三个类别文章中的条件概率,即 P(word|category)。对于单词“比赛”,我们可以计算它在“体育”类别文章中出现的概率 P(比赛|体育)、在“娱乐”类别文章中出现的概率 P(比赛|娱乐) 和在“科技”类别文章中出现的概率 P(比赛|科技)。基于这些条件概率,可以构建一个特征向量来表示每个文章。假设有一篇文章内容为“游戏公司推出全新竞技类游戏”,贝叶斯词袋模型可以通过对文本中每个单词出现的概率进行建模,自动地将文本分类到相应类别。

03

PLSA (Probabilistic Latent Semantic Analysis) 模型:认为每个文章都由多个主题混合而成,每个主题是词汇上的概率分布。例如,我们从数据库中获取了一个文本集合,其中包含各种主题的文章,如“体育”、“娱乐”、“科技”等。其中,每个单词都是先确定一个主题后,在该主题下生成,如“体育”主题可能包含“足球”、“篮球”、“网球”等词汇。在PLSA模型中,主题的词汇所符合的概率分布是确定的。通过训练模型,我们可以得到每篇文章的主题分布和每个主题的词汇分布,从而可以对新文本进行主题分类或者推荐相关主题的文章。

LDA主题模型在PLSA模型的基础上加入了贝叶斯框架。认为(1)每个主题都是一组基础单词的混合,而每个文档都是一组主题概率的混合,词与词之间没有顺序以及先后的关系。(2)一篇文档可以包含多个主题,文档中每一个词都由其中的一个主题生成主题分布和词分布不再确定不变,而是随机的其核心公式如下:

P(词语|文档)=∑P(词语|主题)×P(主题|文档)

我们在对一组文档的主题构成进行分析时,首先通过计算和人工判断确定将文档内容归纳为K个主题(K的选择方法后文说明),对于每个单词,我们随机选取一个主题作为其初始主题,并随机初始化主题分布和单词分布等参数。LDA 算法循环遍历每个文档,将文档中的每个单词重新随机分配给 K 个主题中的一个。模型通过迭代计算来优化主题分布和单词分布,直到找到最佳的文档-主题和主题-单词分布组合。

02

二、应用场景

这一方法的应用场景非常广泛。在传播学定量研究中,LDA方法可以应用于新闻报道分析、社交媒体数据分析、用户评论分析等方面,以揭示人们在特定话题上的观点和态度。以下是其可实现的部分功能:

  • 文本分类:LDA主题模型可以用于对文本进行分类,例如新闻文章分类、无效信息过滤等。

  • 媒体分析:LDA主题模型可以用于对媒体在某一时段内的话题进行分析,例如Twitter上的热门话题;也可以针对某一事件的话题看法进行历时性分析,探究在时间变化下舆情及热点的演化

  • 市场营销:LDA主题模型可以用于市场营销中,通过对消费者评论和反馈的主题分析,了解消费者对产品或服务的需求和偏好。

  • 自然语言处理:LDA主题模型可以用于自然语言处理中,例如词义消歧、信息提取等。

03

三、实施步骤

01

文本预处理:将非结构化的文本数据进行整理,是深层次分析文本的前提。一般来说对文本的预处理包括以下步骤:

(1)词语切分(Word Segmentation/Word Tokenization):将一个序列切分成一个一个词以便于计算机分析。切分方式包括基于词典的切分、基于统计的切分和基于理解的切分。具体来说,一是以词典为依据将符号串与词典中的单词条目进行匹配;二是使用相邻两个字的共现频率来计算它们的紧密程度,当紧密程度高于某一阈值时,则认为此组合构成一个词。三是利用句法、语义的分析来处理中文分词中的歧义切分,优化机械的切词机制,这一方法需要大量的语言知识和信息,计算过程比较复杂,对技术要求比较高。

(2)去除停用词(Remove Stopwords/Dropping common terms):虚词以及在文本中经常出现但不传达主题意义的词语被称为停用词。由于这类词对分析文本内容基本没有帮助,将其去除可以降低文本特征的复杂度,所以可通过构建停用词表的方式将其删除。

(3)构建同义词典(Normalization):如妈妈和母亲、China和PRC(the People's Republic of China)在文章中表达意义相同。通过构建同义词典的方式,减少文本特征空间中的同义词和关联词,能够降低信息冗余,改进文本挖掘效率

(4)词干提取 (Stemming)和词性还原(Lemmatization):词干提取是去除词缀得到词根的过程,能够得到单词最一般的写法,如将“running”和“runner”提取为“run” ;词性还原是把一个任何形式的语言词汇还原为一般形式,如把better还原为good,二者都是词形规范化的两类重要方式,达到有效归并词形,便于提取意义和准确分析的目的。二者处理结果有时相同。

原文:

本研究针对获取的 3 国媒体报道数据进行整体分析。在 LDA 主题模型分析阶段, 依次先进行去除停用词 (dropping common terms) 、构建同义词典 (normalization)、词干提取 (stemming) 和词性还原 (lemmatization) 等操作, 最后通过 LDA 模型经多次实验, 提取形成相应主题并开展分析。

02

文本特征提取:使非结构化数据初步转化为结构化数据,为下一步的挖掘处理做了充分的准备。构建高频关键词分布的主题词表、进行TF-IDF分析等手段常与LDA主题模型分析结合使用。

原文:

TF-IDF (term frequency-inverse document frequency) 是一种在词频之上的大数据分析加权手段。TF-IDF 算法认为, 一个关键词的重要性随着其在文件中出现的次数成正比增加, 但同时会随着其在语料库中出现的频率成反比下降。如果所有文档都提及 “belt and road”, 那么从频次上看,“belt and road” 会很高, 但TF-IDF指数则会很低。TF-IDF 指数有助于我们在词频之外有更多手段对文档主题进行把握, 同时对TF-IDF结果的熟悉和把握, 也是下面LDA主题分析的必要前提

从3国媒体报道的TF-IDF指数看, 差异已经显现。印度报道多有涉及与他国利益关系, 同时关注安全、军事、债务等议题; 巴基斯坦的“中巴经济走廊” (CPEC) 指数甚至超过 “一带一路倡议” (BRI), 同时关注合作、发展、投资等问题, 在巴基斯坦的报道中, 文化、学生等人文交流语汇也较显著; 菲律宾报道的国家政要出现指数较高, 经贸、债务、协议等议题比较显著, 教师也是其中的重要主题。

03

确定最优主题数:对主题数的选择直接影响LDA主题建模结果的准确性和可解释性[3] 。主题数量应该既能反映文本数据的内在结构和含义,又要避免过拟合和计算负担过大。目前确定主题数主要有以下方法:

  • 经验法:研究者根据已有文献或个人经验,进行反复调试,观察主题聚类效果,进行人工判断,从而确定主题个数。
  • 计算困惑度(Perplexity):困惑度是一种常用的评估主题模型质量的指标,是文档中每个词汇产生的概率的几何平均值的倒数。词汇产生的概率越大,困惑度越小。它通常用于衡量模型对新文本数据的拟合程度,即给定一个新文本数据集,模型生成这个数据集的概率分布情况。困惑度越小,模型越好。

    (例:通过计算困惑度确定主题数的图示。图片来自赵凯,王泓源《LDA最优主题数选取方法研究:以CNKI文献为例》[4]。在此图中,文献主题数选取K=15 时效果最佳。)

  • 计算一致性(Coherence):一致性衡量的是主题下词语间的语义关联性,这一指标可以帮助研究者评估模型学习到的主题是否有意义和可解释性。一般来说,一致性值越高,表示模型学习到的主题越好。常用的一致性计算方法包括UCI和UMass方法,它们的计算方式和具体实现略有不同。

    (例:通过计算一致性衡量三种选词方案的质量以及其在不同主题数下的变化,图片来自陈果,吴微《细分领域LDA主题分析中选词方案的效果对比研究》[5]。此图表示,在主题内词数为10时,以“领域术语”开展分析所得的主题一致性都明显高于另外两种方案,尤其是在主题数为 10 ~ 35 个之间时。)

  • 计算主题间相似性(Topic Similarity):在实际应用中,一个主题模型通常包含数十甚至数百个主题,这些主题之间可能存在相似性或重叠性。主题间相似性可以帮助研究者理解模型学习到的主题之间的关系,并可能指导主题的合并、删除或更改。常用的主题间相似性计算方法包括余弦相似度、Jaccard相似度、KL散度、Hellinger距离等。

(例:以上两张图分别计算了在指定不同参数K得到的模型中,主题之间相似度的变化情况。图片来自曹娟等《一种基于密度的自适应最优LDA模型选择方法》[6]。对比两张图可得,当K=4时,主题分布的重叠现象比较多;K=3时结构相对更稳定。)

以上几种方法的核心思想及优缺点可参照以下表格进行理解:

(以上表格参考张东鑫,张敏《图情领域LDA主题模型应用研究进展述评》[3] )

从实际应用情况来看,使用经验法和计算困惑度判断居多;也有研究认为一致性是衡量主题质量最有效的方法,近年来使用这一方法进行研究的成果数量有所提升[3] ,部分研究者将以上方法及其核心思想结合,探索出了新的最优主题数确定方式[7] ,感兴趣的读者可以搜索相关文献查看。

04

训练模型:使用LDA算法对文档数据进行训练,提取出每个文档中的主题和每个主题中的单词。一般来说,模型结果在文章中可按如下形式呈现:

(以上图片来自申静等《中国智库微博内容特征分析——基于新浪微博的实证研究》 [8] )

(以上图片来自周培源等《中国智库微博内容特征分析——基于新浪微博的实证研究》 [9] )

05

评估模型:对模型进行评估,检查主题是否有意义、单词是否属于正确的主题等。

06

主题分析:根据得到的主题分布,对文本数据进行解读,以便读者理解文本数据中的隐藏信息和构念。

以原文举例:

通过 LDA 主题模型的分析, 不难发现各国报道框架议题各有侧重。3国均重点关注了本国与 “一带一路”关系, 经贸、投资、债务等问题均是高频议题。同时各国各有特点, 印度聚焦 “问题”、巴基斯坦着重 “友谊”、菲律宾更关注“本国”。更宏观地看, 在报道异质性凸显的同时, 我们依然能够挖掘背后存在的思维逻辑, 即相关报道议题形成几个由中心到边缘的圈层———这些圈层分别遵循新闻价值原则、政治经济考量, 形成了 (1) “基础、背景议题”; (2) “显性新闻议题”; (3) “对象国利益攸关议题”; (4) “其他相关补充议题”等。从3国的实践来看, (1) 类议题相对稳定可控; (4) 类议题较为分散, 不集中亦难形成舆论; (2) (3) 类议题则是需要重点关注把握的议题。

在LDA模型中,权重是一个重要的概念,指的是主题在文档中或单词在主题中的重要程度。LDA模型中的权重通常用数值表示,数值越大表示重要程度越高,即对主题或文档的贡献度越高。在对模型结果进行描述和解析时,可以参考各主题权重。

04

四、优缺点

LDA方法的优点包括:

  • 可以有效降低人工编码的随机性和复杂性,并最大限度地挖掘文档间的关联。

  • 可解释性强:LDA方法提取出的主题具有一定的可解释性,因此可以更好地理解数据中的信息。

  • 数据处理能力强:LDA方法可以处理大量文档数据,同时可以处理多语言数据。

LDA方法的不足之处有:

  • 主题数目需要手动设定,难以确定最优主题数,主题数设置可能会影响到模型的准确性。

  • 算法复杂度高,计算量大,在处理大规模数据时需要消耗大量时间和计算资源。

05

五、相关工具

1. ICTCLAS (Institute of Computing Technology, Chinese Lexical Analysis System):由中国科学院计算技术研究所开发的汉语词法分析系统,目前其主要功能包括中文分词、英文分词、词性标注、关键词提取等,支持用户专业词典。

详细信息:http://ictclas.nlpir.org/

2. ConText:由美国伊利诺伊大学开发,支持基于自然语言文本的语义网络关系分析等,能够进行文本预处理和LDA主题建模操作[10]。

详细信息:http://context.lis.illinois.edu/

3. Gensim:Python编写的开源库,可以支持包括TF-IDF、LSA、LDA、word2vec在内的多种主题模型算法。包括一个可视化工具,用于检查模型的主题和单词分布。

详细信息:https://radimrehurek.com/gensim/intro.html

4. Familia:百度开源的中文主题模型应用工具包,提供了LDA、SentenceLDA, Topical Word Embedding等模型,可以用于新闻质量分类、网页内容丰富度估计、新闻个性化推荐等[11]。

详细信息:https://github.com/baidu/Familia

5. LDAvis:R编写的开源库,用于可视化LDA模型。它提供了一个交互式可视化界面,以帮助用户理解模型的主题和单词分布。

详细信息:https://github.com/cpsievert/LDAvis

参考文献:

[1] 钟智锦,王童辰.大数据文本挖掘技术在新闻传播学科的应用[J].当代传播,2018(05):12-18.

[2] Blei D M, Ng A Y, Jordan M I. Latent dirichlet allocation[J]. Journal of machine Learning research, 2003, 3(Jan): 993-1022.

[3] 张东鑫,张敏.图情领域LDA主题模型应用研究进展述评[J].图书情报知识,2022,39(06):143-157.

[4] 赵凯,王鸿源.LDA最优主题数选取方法研究:以CNKI文献为例[J].统计与决策,2020,36(16):175-179.

[5] 陈果,吴微.细分领域LDA主题分析中选词方案的效果对比研究[J].情报理论与实践,2019,42(06):138-143.

[6] 曹娟,张勇东,李锦涛,唐胜.一种基于密度的自适应最优LDA模型选择方法[J].计算机学报,2008(10):1780-1787.

[7] 关鹏,王曰芬.科技情报分析中LDA主题模型最优主题数确定方法研究[J].现代图书情报技术,2016(09):42-50.

[8] 申静,张璐,王若佳.中国智库微博内容特征分析——基于新浪微博的实证研究[J].情报科学,2019,37(12):3-10.

[9] 周培源,姜洁冰,戴立为.“一带一路”议题与国家品牌的可持续传播:基于LDA主题模型的实证研究[J].新媒体公共传播,2021(02):87-101.

[10] Diesner J. ConText: Software for the integrated analysis of text data and network data[J]. Social and semantic networks in communication research, 2014.

[11] 百度NLP | Famila:开源的中文主题模型应用工具包[EB/OL]. https://mp.weixin.qq.com/s/kMQ7q4EyBQUH1DEEhQWdCQ, 2017-08-14.

[12] 通俗理解LDA主题模型[EB/OL]. https://blog.csdn.net/v_july_v/article/details/41209515, 2014-11-17.

编辑 / 郭亦琛

审核 / 于孟利

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
R语言︱LDA主题模型
R语言LDA、CTM主题模型、RJAGS 吉布斯GIBBS采样文本挖掘分析论文摘要、通讯社数据
LDA主题聚类学习小结
概率主题模型简介 Introduction to Probabilistic Topic ...
LDA及Gibbs Sampling
【专知荟萃16】主题模型Topic Model知识资料全集(基础/进阶/论文/综述/代码/专家,附P...
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服