打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
火车头采集器第三章第1节:内容采集之数据提取方式
大家好,我是教程君,通过前两章的学习你应该已经掌握了怎么样把内容页的网址获取,这章开始对文章内容的采集和处理。本节主要讲述如何对内容数据的采集,下面用四种方式来进行:
1.前后截取2.正则提取
3.可视化提取
4.标签组合

这四种方式是采集获取数据的四种常规方式,下面一一为大家讲解。
1、前后截取
让我们打开软件,接着上一节继续,点击采集内容规则,展示如下:

点击标题,弹出如下界面:

我们可以看到我们选择的是通过采集获取数据,这里是标题,标题就是一篇文章的题目,我们首先要在文章中找到这个题目,打开内容也我们去看看:


我们打开源代码找出这个标题的位置,我们发下在文章有以下几处都有标题文字,如下:



我们尽量选择带有<title>标签的,这种标签基本就是作为标题标签来用的,我们对标题采集的首尾截取就不动,默认来测试一下:

我们会发现他的后面带着_光明网这样的后缀,我们如果不想要这个的话,在标题里加入文字替换即可:

点击添加,选择内容替换如下操作:


这样便可成功,测试图如下:

我们的标题便成功了。
内容怎么采用前后截取呢,其实和标题一样,先找到内容位置,然后前后找到合适的截取位置即可,选择的前后截取位置的字符在文章中要唯一,如下:

先复制文章中一段靠前的内容,在源代码中查到文章的开端:

我们会发现<div class='u-mainText'>这个代码段,这种一般作为文章的开头来用,并且测试在源代码中唯一,所以可以作为文章的首位截取位置,同理找出末尾截取位置:

这里我们可以选择这两个位置,如果想要带上责编的话就选后面那个,不想带的话就选择前面那个,我这里选择了前面那个。
最终如下:


这样我们便把内容采集好,对于作者我们可以采集文中的作者,也可以自己定义作者,先在文中采集,我们就可以用这段:



时间和出处我们也可用相同手法来做,这里就不演示了。也能够自己添加相应的标签来配合自己的站点标签来做,这里的栏目就是上节用的组合标签的成果。
本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
好的功能对于百家运营有什么作用?
财源致达:小红书的引流技巧
今日头条的推荐机制,怎么可以推荐更多人呢?
抓取网页数据工具的内容获取方式
自媒体平台机制
邊框--紫粉色
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服