打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
《红楼梦》后四十回作者到底是不是曹雪芹?大数据告诉你真相!


前言


《红楼梦》前八十回和后四十回到底是不是同一个作者?现在我们看到的版本大多写的是:曹雪芹写了前八十回,高鹗续写了后四十回。事实上,红学上关于《红楼梦》的作者争议一直很大,存在着很多种版本。

“红学史”上“高鹗续作《红楼梦》后四十回”的说法,最早出于清代文学家张问陶。当时,张问陶有《赠高兰墅(鄂)同年》诗。诗题自注云:“传奇《红楼梦》八十回以后俱兰墅所补。”《绘境轩读画记》记载说,曹雪芹“《红楼梦》小说,称古今平话第一。嘉庆时,汉军高进士鄂酷嗜此书,续作四十卷附于后,自号为‘红楼外史’。”



清代著名《红楼梦》评论家张新之指出,《红楼梦》80回前后在思想、结构上、人物性格发展上都具有高度的一致性,他在《红楼梦读法》中写道:“一部《石头记》,计百二十回,沥沥洋洋,可谓繁矣,而实无一句闲文。有谓此书只八十回,其余四十回乃出另手,吾不能知。但观其中结构,如常山蛇,首尾相应,安根伏线,有牵一发浑身动摇之妙,且此句笔气,前后略无差别——重以父兄命,万金赠,使闲人增半回,不能也。何以耳为目,随声附和者之多?”

下面让我们看看大数据分析下的《红楼梦》到底是不是曹雪芹一人所作



大数据分析告诉你

《红楼梦》到底是不是曹雪芹一人所作?

精准分析揭露真相


数据来源


 

1、资料来源:《红楼梦》全集文本数据

 

2、数据格式: UTF-8



分析工具

 NLPIR-Parser

 

NLPIR-Parser是融合了自然语言理解、网络搜索和文本挖掘的技术,针对互联网内容处理的需要的文本搜索与挖掘开发平台(NLPIR在线演示平台:http://ictclas.nlpir.org/nlpir/),平台提供了用于技术二次开发的基础工具集。



虚字的选择


 

每个人的写作都有些小习惯,虽然文章前后说的内容会有差别,但是这些用词的小习惯不容易改变。由于前80回和后40回情节上的不同,涉及情节的词也就有所不同。但是每个人使用虚词的顺序与数量可能存在着差异。

 

本文根据1987李贤平发表的《〈红楼梦〉成书新说》一书中选择的四十七个虚字。简介如下:

 

(1)十三个文言虚字:之、其、或、亦、方、于、即、皆、因、仍、故、尚、乃

(2)九个句尾虚字:呀、吗、咧、罢咧、啊、罢、罢了、么、呢。

(3)十三个常用的白话虚字:了、的、着、一、不、把、让、向、往、是、在、别、好。

(4)十个表示转折、程度、比较等意的虚字:可、便、就、但、越、再、更、比、很、偏。

(5)后缀于名词的“儿”字和后缀于副词、形容词和动词的“儿”字。



KL距离


KL距离(相对熵)可以衡量两个随机分布之间的距离,当两个随机分布相同时,它们的相对熵为零,当两个随机分布的差别增大时,它们的相对熵也会增大。所以相对熵(KL散度)可以用于比较文本的相似度。



结果及分析

  本文将《红楼梦》一百二十回按顺序均分为三、六、十二等份,将其命名为“三组”、“六组”、“十二组”。将各组作为语料源,使用NLPIR各组数据分别进行批量分词的分析操作。然后统计出文言虚词的词频。最后对不同组数据之间进行KL距离计算。


 

接下来以“三组”为例详细介绍,“六组”与“十二组”等同。将一百二十回按顺序均分为三等份即第1回-第40回、第41回-第80回、第81-第120回。统计出四十七个虚字在每组的词频及概率。“三组”数据中部分虚词以及该词的概率如表1所示,其中概率值得计算为本组数据中某个虚词的个数与本组数据虚词的总数的比值。

 

根据KL计算公式将表2中的行所在回数的各个虚词的概率值记为P(x),将表2中列所在回数的各个虚词的概率值记为Q(x)。其它组实验等同。例如计算第1回-第40回与第41回-第80回的KL值时,公式中的x表示某个虚词,P(x)表示x在第1回-第40回中的概率。Q(x)表示x在第41回-第80回中的概率。需要注意的是D(P||Q)与D(Q||P)不同。

 

各个虚词在各组的频率及概率


这3组数据的KL值结果如表2所示。从表中可以观察到第一行中1-40与81-120的KL值是1-40与41-80的KL值的十倍。由于当两个随机分布的差别增大时,它们的相对熵也会增大。所以1-40与81-120的相似性比1-40与41-80低。 

 

表2  “三组”数据结果

表2对应的直观图如图1,可以观察到第1回-第40回与第41回-第80回的相似性较大,第1回-第40回和第41回-第80回与第81-第120回的相似性出现明显变化。



图1 “三组”数据结果


“六组”将120回按顺序均分为六等份即第1回-第20回、第21回-第40回、第41-第80回、第81回-第100回、第101-第1200回。这6组数据的结果如表3所示。对应直观图如图2所示。

  


表3 “六组”数据结果

 

根据当两个随机分布的差别增大时,它们的KL值也会增大。发现前四等份在跟后两等份进行比较时KL值会明显增加。同时后两等份在跟前四等份进行比较时KL值会明显降低。



图2 “六组”数据结果


“十二组”将120回按顺序均分为十二等份即第1回-第10回、第11回-第20回、第21-第30回... ...第111-第1200回。这12组数据的结果如表4所示。


表4 “十二组”数据结果

从表4中可以观察到前八十回中的任意一组数据在与一百二十回的其他组比较时,与后四十回的各组数据的KL值比与前八十回其他组数据的KL值高。当两个随机分布的差别增大时,它们的KL值也会增大。



图3各组与后四十回均分的4组数据的对比

图3为一百二十回与后四十回均分的4组数据的对比图。可以看出前八十回的各组数据的KL值与后四十回的数据的KL值有不同程度的差距。后四十回之间的KL值比其他组得KL值要小,说明后四十回的相似度较高。





敢问你看懂了么?



 

红粉们还是直接来看结果吧!


经过一系列的分析,
前八十回与后四十回确实在用词习惯上有明显的区别。
可以大胆推测:
红楼梦后四十回是出自于另外一个作者。
至于是不是高鹗,还需要进一步分析。




怎样,你满意了吧?

满意的留个言,让我知道《红楼梦》的真爱有多少。


声明:本文摘编自大数据千人会,感谢辛勤工作的分析人员。致敬。



你会喜欢:

蒋勋细讲红楼梦 第一讲

孤独六讲之情欲孤独

法國新古典浪漫主義
蒋勋谈春江花月夜

美的沉思之谈服饰之美

蒋勋谈中国文学之李白

蒋勋谈兰亭序

白居易和琵琶行




本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
虚词在律诗中的妙用
红楼]咬文嚼字读红楼之八:“实字”“虚字”不等于“实词”“虚词”
对联百讲·86·虚字对
88888
夏薇:《红楼梦》“黛玉谈诗”的格律问题
以数字映射古代文学经典
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服