早在多年前,就有学者利用计算机文本分析的技术来分析红楼梦了,并且得到了很多有趣的结果。受此启发,且自身一直对佛学很感兴趣,所以在网络上下载了《乾隆大藏经》,进行简单的文本分析,看看是否能有一些好玩的发现。
我所下载的《乾隆大藏经》文本文件,共1777个文件,对其中明显的非正文内容去除掉,共剩余58,405,507字。据说完整的大藏经有过亿字数,不过由于目前暂时获取不到,所以当前的分析是基于这个可能不完整的版本之上的。
由于中文属于紧凑型的文字,和英文不同,词与词之间没有空格自然的分开,因此第一步,要对原始的经文文本进行分词。比如:
经文原文: 如是我闻
分词之后: 如是 / 我 / 闻
需要说明的,由于佛教经文属于古文行文,有非常多的生僻字和特殊的用法,这会导致分词程序的准确率有所下降,比如『无我』本属于一个词的,被分成"无/我"两个词。不过本文主要是从统计意义上来分析,所以对这类由分词导致的结果不够精确的问题,后面不做特殊说明。
以下所有的分析都是在分词文本之上进行的。
除去单个字的结果,本文只关注两个字及以上的词,下面来逐一解读TOP10的词汇。
1 一切
说实话,没想到是这个两字词排在了第一位,高达近23万次,这说明一个问题,就是佛陀在讲经的时候,关注的对象是宇宙间的一切法、一切众生,无一例外,所谓格局就是如此。
2 菩萨
菩萨(21.6万次),是众生成佛之前的最后一个阶段,佛陀身边很多弟子都是菩萨,还有很多菩萨是倒驾慈航,也即是过去世已经成佛,现在为了度众生方便,所以以菩萨身份出世。当前,对于普通人来说,菩萨一词已经有了新的含义,就是只要心怀善念,能对身边人布施财、法、无畏都可谓一念菩萨。
3 如是
如是(16万次),直译过来大概意思:本来就这样。每一篇佛经的第一句话都是『如是我闻』,这是佛弟子阿难在集经大会上复述的,表明后面所说都是当年的佛陀亲口所说,我阿难只是这么听到,也就这么『如是』的复述出来了。当然,这个词还有很多其他的上下文,但万变不离其宗,本来就是如此!那本来应该是什么样的呢?
4 清净
清净(12.4万次),大概可以回答本来应该是什么样的问题,本就应该『清净』。关于清净,大家应该都听过的一首偈子,『本来无一物,何处惹尘埃』,说的就是清净的问题。清净是一种选择,更是一种状态。
5 比丘
比丘(9.7万次),作为佛法僧三宝之一的比丘,是佛法住世的标志,也是众生有所皈依的具象存在。佛法的第一批听众,就是追随佛陀的众比丘们,在讲法过程中佛陀和比丘们有很多互动,因此,比丘出现的次数很高可以理解。同时也说明,佛陀对比丘的关注,用现代的语言来说,就是注重弘法团队的培养。
6 如来
如来(8.8万次),如来是佛的十种称呼之一,所有的佛都可以称为如来。佛经中出现很多过去佛、现在佛、未来佛,对这些佛的描述,一方面是众多如来的事迹,一方面时刻提醒众生,要向如来看起,以如来的标准来要求自己,努力修行,永不懈怠。
7 众生
众生(8.3万次),众生不仅包括活着的人类,还包括死去的,还包括地狱里的,甚至还包括天上的,佛法要度一切众生。而众生的特点,却是刚强难伏,于是地藏菩萨发出伟大的誓愿,『地狱不空,誓不成佛』。只要你还有烦恼,就需要修行。
8 波萝蜜
波罗蜜(8.3万次),是一个音译,一般被意译为『到彼岸』,从生死的此岸到涅槃解脱的彼岸。更是指所有修行者必须修行累积的善德,是究竟成佛的根本资粮。佛陀所有的讲经说法,都是工具,都是筏子,目的是波罗蜜,是到彼岸。到达彼岸以后,『法尚应舍,何况非法?』。
9 世尊
世尊(8.1万次),也是佛陀的别名之一,一般情况下,在法会上,弟子们向佛陀提问时,都会加上这个称呼,表尊敬的含义。整个佛经,是一场场内容丰富多彩的演讲会和互动问答记录。从这个词的高频出现来看,当时的互动情况还是非常热烈的。
10 乃至
乃至(7.3万次),这个词的出现,一方面可能由于梵语翻译成汉语的时候,有一些表达方法的特殊结构导致,另一方面,说明佛陀在表达的时候,为了表达相对完整,不得已要用很多递进句式,一定程度也意味着,佛经理解起来确实相对复杂。比如短短260字的心经中,就出现了两次:
是故空中无色,无受想行识,无眼耳鼻舌身意,无色声香味触法,无眼界,乃至无意识界。无无明,亦无无明尽,乃至无老死,亦无老死尽。
紧跟着的五个词条是:摩诃萨、般若、不可、菩提、无量。这些高频词的出现,一方面可以反映出佛陀在当时讲经过程中经常强调的内容,同时也可以为学佛爱好者去理解掌握佛经要义提供参考。
愿每一个人,都能找到属于自己的信仰,找到属于自己的依归。
补充一下,利用计算机文本分析技术,可以有很多角度来支持各类文字解读。除了本文最简单的词频分析之外,还可以进行一些有趣的分析,比如通过提取文本中的副词、助词等功能词的使用特点,识别不同作者的行文风格等。
另外,计算语言学和自然语言处理是当前AI领域热门的一个分支,都是试图从技术上来理解文本,从而进行更多深层的语义理解;可见的一些有趣的应用包括:微软出品的自动写对联写诗、微信的原创自动判别等。本文非技术文章,不做深入探讨,有兴趣者可进一步研究。
联系客服