采集规则的配置较采集网址配置而言,要相对简单一些,但其配置过程中的技巧又多一些,一个好的采集规则,不仅可以提升采集的性能,而且还可以免去后续繁复的数据加工操作。所以,采集规则尽管学起来容易,但要达到真正的采集要求,还要多思考多实际演练。
首先我们先理解两个内容:
1、
采集原理:采集就是在网页源码中找到你想要的数据内容,网页源码就是一个大文本字符串,在这么一个字符串中想找到你想要的内容就需要告诉矿工你想要内容的前后的标志。举个例子:网页的标题都是以<Title></Title>来标识的,只要浏览器遇到这样的标识就会知道这个是网页的标题,并把他显示出来,采集也是如此,你要告诉矿工你想要数据的前后标识,这样矿工在查询网页字符串的时候就会检索你提供的前后标识,如果找到符合的就把数据提取出来。这就是采集原理。
2、
正则表达式:这个内容太技术化了,我们可以暂时不需要去考虑。有兴趣的朋友可以了解一下正则,系统对网页字符串的检索匹配时采用正则来进行的。所以,如果你了解这个技术,那将会受益匪浅,呵呵。
采集数据的说明:
采集网页的数据,是一个二维表格。且只能是一个二维表格。采集数据的结构是网页的数组组织形式决定的,软件本身并不能对其进行修改调整。这点尤为重要。
采集一定是按照从前之后的顺序进行的,无法先采集后面的内容,再采集前面的内容。
举例说明:
采集规则的配置核心就是找到需要采集数据的前后标志。很简单。无需废话,但这里更多的是讲解采集配置的技巧。就像前面所说,配置简单,但要用好,则需要掌握很多技巧。
1、
前后标志配置了,但却采集到无用的数据,该怎么办?
可以缩小采集范围进行采集。如果通过缩小采集范围也无法进行采集,那就通过限制采集规则条件进行;
2、
如果我配置的采集规则采集下来的数据有多余的数据改怎么办?
如果存在多余的数据,可通过数据输出来配置规则去掉多余的数据,最典型的应用就是去除网页符号
3、
我如何判断采集规则配置是否正确?
软件提供了采集规则分析的功能,系统会自动将网页源码提取出来,并根据您配置的采集规则进行匹配,您可以根据匹配结果情况进行调整,直到测试成功。也可以单独测试一个采集规则。
采集规则配置建议:
1、
尽可能的通过采集规则来匹配数据,而不是通过采集规则匹配数据之后,再利用数据输出规则来加工数据,这样会降低采集性能;
2、
采集规则配置最好可以找到唯一的前后标志,这样是最简单的,且匹配最准确
3、
采集规则如果是无法唯一,则可以将无用的数据采集出来,这样不会影响数据匹配,也最为简单。只不过采集到无用数据不进行发布即可。
采集一定是按照从前之后的顺序进行的,无法先采集后面的内容,再采集前面的内容。