本文将详细说明采集任务的添加及一些任务采集技巧的使用,分为四个部分进行说明。
打开采集任务窗体,可以看到采集任务的信息主要可以分为三类:基本设置、采集网址及采集规则,测试采集是测试当前采集任务配置是否正确,是否可以完成采集信息的操作。
基本设置:主要完成采集任务的基本信息配置
Ø 任务名称:任务的名称,任务是以xml文件存在的,任务名称也就是对应的xml文件名;任务添加成功后将不可修改;
Ø 任务分类:可以选择人物所属的分类,当任务添加成功后,任务添加成功后将不可修改;
Ø 任务类型:当前仅支持“根据制定的网址采集信息”,不可进行选择,此项是系统的任务扩展选项,最终用户可不考虑此内容;
Ø 执行类型:当选择“采集并发布数据”时,用户需要配置下面的“采集结果发布设置”信息,任务完成采集任务后会自动根据配置的发布信息进行数据导出操作,如果选择“仅采集数据”则任务采集完成后不进行数据导出。注意:任务会默认保存采集数据的,为xml格式。
Ø 线程数:表明此任务启动后所启动的线程数,最大为10个线程;
Ø 采集数据保存的地址:此选项是指采集数据的临时保存地址,此保存操作是默认操作,无论是否选择发布数据,都会进行采集数据的保存;
Ø 网页编码:默认为自动,系统会自动进行判断网页编码,但有可能会出现判断出错的情况,所以如果出现乱码,建议重新配置此项;
Ø Cookie:采集需要cookie的网页时需要配置此值,配置此值点击“获取Cookie”后,手工完成页面的访问,系统会自动记录Cookie,并保存此数据;
Ø 需要人工登录:如果采集需要登录后方可访问的网页,需要选择此项。但请注意,系统不支持自动登录,在此仅需要添加登录的地址即可,当任务启动后,系统会判断是否需要登录,如果需要,则自动打开登录网页,由用户手工完成登录操作,系统记录登录信息后自动完成采集任务。
Ø 采集结果发布设置:可发布文本、Excel、Access。注意,如果选择Access,则数据表会自动新建,所以您不能选择已有的数据表。