打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
余弦定理为什么能在新闻分类中有所应用,原理是什么?

这一点刚开始也让我感到很神奇,但是事实是新闻分类的基本原理其实就是余弦定理。首先让我们来回顾一下什么是余弦定理。

余弦定理和正弦定理是我们在高中时期学习三角函数时学到的两个定理。其中余弦定理说的是如果我们知道三角形的两条边和这两条边的夹角,那么我们便可以通过以下公式来求出第三条边。

图1. 余弦定理示意图

我们利用余弦定理可以求出两条边的夹角,即下面这个公式:

cosA=(b²+c²-a²)/(2bc)

当我们在坐标系里研究余弦定理时,其实就是在求两个向量之间的夹角,这个公式我们也是很熟悉的,

cosθ=a·b/|a|·|b|

在新闻分类中做的事就是将每一篇新闻都总结成一个向量,而两篇新闻之间的相似度就可以用两个向量的夹角大小来表示,夹角的大小就在某种程度是反映了两篇新闻之间距离的远近。

所以问题就是我们应该如何将一篇好多个字的新闻总结成一个向量。这看起来是不可思议的,但是现代的自然语言处理的理论发展出来了这样的方法。

想象我们有一个词汇的数据库,这个数据库中包含了十万个词,这十万个词基本可以将新闻中出现的各种词所覆盖,那么我们可以计算出每篇新闻对这个数据库中的每个词语的单词文本频率/逆文本频率值。这个值是什么意义呢?在一篇文章中,重要的词的文本频率值就高。所以进行这样的处理之后,对于每一篇新闻我们都可以得到一个十万维的向量,然后根据上面的公式就可以计算向量的夹角,从而得出新闻之间相似度了。

值得一提的是,2002年,谷歌推出了自己的新闻服务,这个服务通过计算机对各个网站的新闻内容进行了整理和分类,核心技术就是我们这里提到的新闻自动分类。

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
数学之美 系列 12 - 余弦定理和新闻的分类
余弦定理
我们学数学有什么用?这是最现实的回答!
数学之美:数学究竟是如何被运用到生活中的?
二轮复习精品导学案(一)——向量与三角
§201 坐标法的应用___距离
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服