火车头采集器第三章第1节：内容采集之数据提取方式

大家好，我是教程君，通过前两章的学习你应该已经掌握了怎么样把内容页的网址获取，这章开始对文章内容的采集和处理。本节主要讲述如何对内容数据的采集，下面用四种方式来进行：
1.前后截取2.正则提取
3.可视化提取
4.标签组合

这四种方式是采集获取数据的四种常规方式，下面一一为大家讲解。
1、前后截取
让我们打开软件，接着上一节继续，点击采集内容规则，展示如下：

点击标题，弹出如下界面：

我们可以看到我们选择的是通过采集获取数据，这里是标题，标题就是一篇文章的题目，我们首先要在文章中找到这个题目，打开内容也我们去看看：

我们打开源代码找出这个标题的位置，我们发下在文章有以下几处都有标题文字，如下：

我们尽量选择带有<title>标签的，这种标签基本就是作为标题标签来用的，我们对标题采集的首尾截取就不动，默认来测试一下：

我们会发现他的后面带着_光明网这样的后缀，我们如果不想要这个的话，在标题里加入文字替换即可：

点击添加，选择内容替换如下操作：

这样便可成功，测试图如下：

我们的标题便成功了。
内容怎么采用前后截取呢，其实和标题一样，先找到内容位置，然后前后找到合适的截取位置即可，选择的前后截取位置的字符在文章中要唯一，如下：

先复制文章中一段靠前的内容，在源代码中查到文章的开端：

我们会发现<div class='u-mainText'>这个代码段，这种一般作为文章的开头来用，并且测试在源代码中唯一，所以可以作为文章的首位截取位置，同理找出末尾截取位置：

这里我们可以选择这两个位置，如果想要带上责编的话就选后面那个，不想带的话就选择前面那个，我这里选择了前面那个。
最终如下：

这样我们便把内容采集好，对于作者我们可以采集文中的作者，也可以自己定义作者，先在文中采集，我们就可以用这段：

时间和出处我们也可用相同手法来做，这里就不演示了。也能够自己添加相应的标签来配合自己的站点标签来做，这里的栏目就是上节用的组合标签的成果。

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。