采集网址的高级配置:
前面对采集网址的配置已经进行了较为详细的介绍,包括如何配置导航网址。实际在采集网址的配置中,还有很多的技巧,在本文中主要讲解一下采集网址中有可能遇到的其他的问题及解决方式。
1、自定义导航网址,导航网址的核心匹配实际就是正则,所以系统提供了正则表达式的支持,如果你了解正则表达式,可自己直接写正则表达式来进行导航网址的匹配,这样会更灵活。
2、导航网址的字符串处理,很多时候,导航网址是由js来完成的,尽管网络矿工当前还不具备js引擎,但对于此类导航,可以将导航的js参数获取,通过拼接字符串的方式来完成。
3、设置导航规则的提取范围,比部分比较容易理解,实际就是将导航的匹配网页内容范围缩小,以达到精准匹配的程度,通常情况下可以不考虑此方面的设置。
4、导航翻页:导航翻页时针对采集翻页文章来设计的,当我们通过文章的列表来进行文章导航的时候,可以获取文章的内容,但实际情况是一篇完整的文章是由多页来构成,这个时候,我们就需要通过导航翻页来实现多页的采集,然后再通过采集规则的设置,将多页的数据自动合并成一篇完整的文章
5、导航页采集:系统支持级联采集,但必须在导航规则中明确表明需要进行导航页数据的采集,在此勾选即可,在采集规则配置也中完成导航页的采集规则配置(后面会有详细的介绍)
6、网址参数编码,网址参数编码实际只是针对中文参数,网址提交的时候是无法直接提交中文的,所以,会转换成不同的字符集,常用的是gb2312或utf-8,如果网址中含有中文参数,记得一定要进行编码操作,如果您不知道网址参数是采用的什么编码,您可以用网络矿工提供的网址编/解码工具(点击 工具 选择 网址编/解码 )来测试一下,如果可以正确解码,就知道是用的何种字符集了。
7、自动翻页不支持js操作,意味的您要查看,下一页的翻页是通过连接来实现的还是通过js来实现,如果是js则无法实现自动翻页,因为网络矿工还不具备js引擎。
注意:
自动翻页和导航页只能任选其一,即如果是导航设置,则无法对导航进行自动翻页,翻页需要通过页面参数来实现;