打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
火车头采集器第二章第2节:多级网址获取
大家好,我是教程君,上节教大家怎么添加起始网址,这节主要教程为多级网址获取:就是获取起始网址页面内的地址。
根据上面“添加起始网址”这个教程我们已经告诉采集器入口地址,我们一般采集的信息都是有选择性的并不是所有的信息都是要采集,比如我们采集腾讯新闻中的各地新闻地址,起始地址是:http://news.qq.com/newsgn/gdxw/gedixinwen.htm
我们只要采集的是左侧的新闻列表,其他位置的内容都不是我们想要的如下图所示:

也就是说采集的范围我们要告诉采集器,不然采集器就会把起始地址下面的地址全部都采集到,下面来讲这些在采集器里面是如何设置的。  第一步是打开设置多级网址获取规则的界面如下图操作


然后就打开多级网址获取规则的界面了如下图


上图可以看到 网址获取选项那里下面有3个选项分别是“从页面自动分析得到地址链接”,“手动填写链接地址规则”,“使用Xpath方式获取地址”。下面就这个3种方式进行讲解下。

1.从页面自动分析得到地址链接

这种方式获取地址是告诉采集器一个采集范围,采集器会把这个范围内的链接地址全部采集到,上图“从该选定区域中提取网址”这个就是写范围的。有的时候可能采集的结果有些是我们不想要的,那么上图的“结果网址过滤”就可以设置地址中必须包含字符或者不得包含的字符。

我们就采集http://news.qq.com/newsgn/gdxw/gedixinwen.htm 这个地址下面的新闻列表为例来设置说明下。我们首先打开这个页面,然后页面右击查看页面源代码。如下图




大家先看下打开的源文件 是不是很多页面上的信息都可以看源文件里看到。那么就找下我们要采集的新闻在那里,上图我们看到第一篇新闻的标题是“facebook故事出新玩法”,这里注意下这个新闻是及时更新的,当你看到这篇教程的时候第一篇文章标题早就不是这个了,这里大家注意。方法是一样的,大家要会举一反三。我们可以复制这个标题去页面源代码里出查找看看在什么位置如图:


上图注意下红框框出来的字符,这串字符复制在页面源代码里向上查找一下,发现查找不到也就是说这串字符是在页面源文件第一次出现(这个很重要,必须是第一次出现),下面就是我们要采集的新闻内容的地址。这串字符就是这个区域的开始。


用上面同样的办法查找最后一篇文章所在位置,找到这个区域的结束如下图:



最后一篇文章结束位置找一串字符做为结束,这里是可以随意的,只要保证从我们上面说的开始字符开始第一次出现的就可以了,我这类找的是</div>,你同样可以找别的。

这里我们就把开始字符和结束字符找到了,现在添加到采集器里面。 如下图:


测试网址如下:







本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
m3u8及TS文件下载解密:如何从播放网址查找m3u8文件
得到视频源文件方法(多种)
如何复制被禁止复制的博客的文章的方法
用文字与图片制作链接按钮
ECMS:帝国CMS的采集正则
【 DeDeCMS织梦的采集教程,超级详细 】
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服