设置采集网址:网址支持自定义参数。网址必须以http://打头,否则会出现解析错误。

 

点击“参数/变量”按钮,可以看到当前系统支持的参数有:数字递增或递减,字母递增或递减,POST参数及字典表参数。参数应用说明如下:

以数字递增为例,数字递增后递减的参数使用,这是最常用的参数,参数格式为:{Num:1,100,1}Num表示是数字类型,第一个1表示数字起始值为1100,表示数字递增到100停止,第二个1表示数字每次按照加1进行递增,用户可以修改除Num之外的任何值,但不能破坏参数格式,否则会出错。

譬如:http://www.soukey.com/content/class.aspx?cid=030101&page=1这样一个网址,Page=1表示循环分页参数,此时如果需要采集多页,则可以用参数替换为:http://www.soukey.com/content/class.aspx?cid=030101&page={Num:1,20,1},则系统会循环20页,自动取到20页为止。同时针对静态网页也适用,只要找到静态网页的变换参数即可。譬如:http://www.***.com/content/a_1.html,分页循环1,则此网址可定义参数为:http://www.***.com/content/a_{Num:1,20,1}.html,也是循环前20页。

在此需要注意的是,用户可以通过字典表,定制自定义参数,然后通过Url赋值进行网页采集,最典型的应用就是如果您想采集某些关键词在搜索引擎中的信息,您就可以通过此种方式来进行。但需要注意的是,如果使用字典表参数,有可能会涉及中文编码问题,当前主流是UTF8gb2312,默认情况下您不需要选择,但如果测试无法进行网址解析,您可选择Url编码格式来矫正此错误。

下一页导航是一种简单的分页操作,当存在分页采集的情况,您可直接定义下一页的翻页标识符来进行系统自动翻页处理,而无需再定制网址参数。下一页的标识是指下一页的页面标识,譬如:“下一页”文字或图片,“后页”文字或图片。系统会根据此标识自动寻找此标识的链接地址从而得到下一页的地址,注意,当前不支持js跳转,如果下一页是采用js实现,则无法自动翻页。

针对于网页数据采集,可由两种方式获得采集网址的URL,第一种就是前面所介绍的直接定义网址进行采集,第二种是根据定制的网页进行导航,再根据导航规则获取到需要采集的网址进行数据采集。此种方式典型的应用是通过文章标题进行文章内容的采集。所以此时,需要配置导航页的规则。举例如下:

采集各种车型数据信息;

导航页为:http://www.soukey.com/content/class.aspx?cid=040301&page=1

此网页需要进行自动翻页,所以,需配置下一页标识为:“后页”

采集的内容是此页面车型数据信息打开的内容页,所以,判断导航规则为:item.aspx?id= ,同时根据页面源码判断,此网址是相对网址(即不是一个完整的网址),所以选中“导航网址使用了相对路径”,添加此网址即可。此示例可以通过Soukey采摘下载后在“Soukey采摘示例”分类中找到。

对于POST参数,可以通过获取Cookie的方式来进行POST参数的查看,此处需要注意,其他操作方式都与上面所讲内容一致。

网址添加后系统会自动计算网址的数量,但针对自动翻页、导航的情况,系统是无法计算的,所以有可能您看到的网址数量在任务执行时会实时发生变化。

网址的添加需要一定的技巧,并且要仔细观察待采集网址的规则变化,找出规律从而按照规律来进行参数设置,系统提供字典功能也是可以依据用户的实际需求来自定义这种规律。

 

 


Posted in: 操作答疑  Tags:
不允许评论

Blog Roll

    最新评论

    一孑工作室声明
    本站文章均为原创,如果转载请注明出处。

    © Copyright 2012『一孑工作室』
    管理我的网站
    京ICP备10018014号