打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
如何构建停用词列表

       在实际使用机器学习文本分类算法(比如lda, bayes, k-means)的过程中,会发现文档的预处理非常重要,如果包含太多杂词,则算法效果往往会大打折扣。预处理中,停用词过滤是非常关键的一步,但就目前而言,并没有完全自动一步到位的实现,而且针对不同领域停用词可能还有变化。但是大体有些规律可以遵循,加上人工干预,应该能达到不错的效果。


      下面是一些可行的停用词过滤方法,供参考:

       1.词频

       将训练集中的高频和低频词汇找出,然后经过人工干预,提出认为可用的词,剩下即为停用词。


       2. 文档频率DF

       如果一个词在文档集中出现的频率太高,那么可以认为这种词不会具有太大的表征意义,可以过滤。而对于过于低频的,也可以酌情丢掉。


        3. 语法剔除,比如:

                Running
                Runner
                Runs
                Ran

            可以归类为run这个词


         4.  过滤包含数字,以及特殊字符的词,比如:

                hello'
                *he

                 computer2


         5. 将所有英文词汇转为lowercase


         6. 搜集网络上一些公开的停用词表

                http://www.webconfs.com/stop-words.PHP
                http://www.webconfs.com/stop-words.php
                http://snowball.tartarus.org/algorithms/english/stop.txt

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
建筑给水排水及采暖工程施工质量验收规范(GB50242-2002)
让雅思考官眼前一亮的口语常用词
承认吧 你也是其中之一
文本分类的数据预处理相关知识介绍
run一词有396个词义
中文文本聚类(切词以及Kmeans聚类)
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服