最近一直有用户在咨询网络矿工的使用,我们建议是用户先通过在线帮助提供的帮助文档和视频进行掌握,因为软件操作并不复杂。但实际效果并不是很好。思来想去,感觉当前最大的问题是由于数据采集过程中涉及的一些技术内容阻碍了用户对软件操作的掌握。所以,我们准备对数据采集范畴内所涉及的一些技术点进行一次简单的讲解,并结合网络矿工数据采集软件,整理合成这个培训系列文章。
废话少说,先开始快速入门。
网页数据之所以可以采集,是由其技术及应用特点所决定的。我们都知道,上网是需要浏览器的,当前主流的浏览器有:IE(7、8)和Firefox还有Google的chrome,国内也有很多软件厂商都推出了自己的浏览器,但从浏览器核心引擎来看,基本上都属前面所说的两种IE和Firefox。当用户通过网页打开页面的时候,实际这是一个下载的过程,也就是浏览器根据你在地址栏输入的网页地址来将网页数据下载到本地,然后在根据网页数据的规则解析成你可以看到的网页内容。基于这样一个特点,所以很多浏览器都有离线浏览的功能,实际浏览的就是你本地的网页数据。但这样的模式也带来了不安全的因素,安全问题不在本文讨论。网页在浏览器打开后,你就可以根据自己的需要来拷贝相应的数据出来。
基于这样一个过程,数据采集成为可能,数据采集也是首先根据用户指定的Url把网页数据下载下来,然后根据用户指定的数据提取规则(即采集规则的前后标志) 。数据提取就类似于在一个大的字符串中截取你想要的数据。数据采集软件就是将这样的一个过程自动化,并把获取到的数据,自动存储起来以备以后使用。
原理很简单,但实际操作的时候会感觉很复杂,最主要的原因就是:HTTP通讯的复杂。浏览器已经封装了http通讯的内容,同时还包括js引擎,以支持所有网站的浏览,数据采集软件也是如此,只不过会复杂一些,因为要通过软件来模拟人的操作,譬如:自动翻页,自动导航。所以,要实现软件自动化,必须告诉软件改如何进行这些操作,也就是规则。正因为如此,数据采集软件也就开放了很多关于HTTP通讯的内容,让用户可以进行任意配置,以达到可以模拟任意的人为操作,捕获数据,最终实现数据采集。
现在不知大家是否明白?总结一下,采集任务配置的复杂程度将决定于网站技术的复杂度,同时也决定于你模拟认为操作的复杂度。最简单的采集任务,就是没有任何操作,直接打开一个Url地址, 然后获取这个页面的Title,也许这个例子不存在价值,但这确实一个最简单的例子。
1、输入任务名称
2、添加一个网址
3、添加一个采集规则,前置<title> 后置 </title>
4、保存,运行,OK。
简单,但如果我要采集一个网站,是根据我查询的结果来进行采集该如何?举一个例子,某网站,真实案例,但隐去网站名称
1、通过软件捕获POST参数;
2、设置POST参数的查询条件为字典参数;
3、在字典参数中,配置自己需要采集查询的条件;
4、导航出来Iframe;
5、用软件捕获Iframe的POST参数;
6、配置翻页
7、配置采集规则
8、保存、运行,OK
实际上面所说无任何意义,但可以告诉大家,采集任务的配置是依据于你采集的网站决定的,同时采集任务的高质量,可以大大简化你的采集任务,同时提升采集效率。所以,在真正讲到配置采集任务强,我们都非常强烈的建议大家一定要了解采集的原理,和一些 简单的技术内容。后续会根据实际采集任务的配置。来串讲技术内容,以便大家可以掌握。
今天先讲到这里。