网络矿工的最大特色就是数据加工操作,很强很方便。网络矿工在数据采集之后,即可马上对数据进行加工处理,让采集后数据最大化的满足用户需求,提升数据质量。介绍几种常用的数据加工方法:
1、去除网页代码:采集数据后,如果有网页的内容,则可通过去除网页代码来提取真正的文本,网页代码去除的规则是判断html完整的标签<>;
2、附件前缀去除网页代码,很多情况,采集下来的数据并无法获取完成的网页标签,譬如: ">测试文本,如果是这样的数据,我们可以通过补足网页标签实现去除网页代码 ,首先先附加一个前缀<,确保可以让标签闭合,< "&g...
[更多...]
Posted in:
技术文档 ,
在线培训 ,
最新动态 Tags:
实际我本人还是比较喜欢soukey采摘,操作简单,易于上手,而且基本满足了采集的功能,考虑到商业价值,所以很多有用的功能并非提供,但可以自行扩展。我本人还是比较喜欢开源,毕竟我们也是其他开源系统的受益者。
好了,进入正题,soukey采摘是用c#开发的,由于本人最早是vb的程序员(实际vb+api,实现的功能还是很强的),所以,代码中会有很浓重的vb影子,呵呵。代码结构并不复杂,今天先讲解目录结构:
1、customcontrol ,自定义控件目录,可不用理会;
2、gather ,核心,所有的采集代码,包括多任务多线程的处理都在此处;
3、listener, 代码...
[更多...]
Posted in:
技术文档 ,
最新动态 Tags:
通常情况下导航操作是针对列表页进入采集页的一种便捷操作,这种导航通常都会在导航页中具有采集页的链接地址,可以通过配置导航规则进行配置,从而让网络矿工实现采集页的检索。但网络矿工还提供了一种导航能力,可以自定义采集页网址,从而实现一种新的导航需求。
还是以实际例子来说明
http://www.360buy.com/products/670-671-672-0-0-0-0-0-0-0-1-1-1.html 看这个列表页,通过导航是可以进入商品主页, 但我们需要采集的并非是商品信息,而是用户的评价。通过fiddler分析,商品评价是一个ajax请求,通过请求http://cl...
[更多...]
Posted in:
技术文档 ,
在线培训 ,
最新动态 Tags:
如果您是一个数据采集爱好者,或者是一名数据采集的工作者,或者就是一位专业的软件测试工程师,只要您对网络矿工有兴趣,并且愿意付出自己的努力使网络矿工更加成熟,我们都欢迎您成为我们的网络矿工专业测试员。
如果您成为我们的专业测试员,我们将为您免费提供一套网络矿工最新版软件,并且可以得到我们在数据采集方面的专业培训,甚至是相关技术的讲解,但是您需要对网络矿工数据采集软件进行详尽的评估测试,并接受客户的测试请求。 我们会将您的QQ号码放到官方网站,一旦有客户请求,您需要对客户反馈的bug进行验证,并进行最终评估,当然客户的服务请求你都可以转给网络矿工客服人员。您只需要对网络矿工bug进行...
[更多...]
此次网络矿工V2012升级,已远远超出了预定的计划,在此次改版过程中得到了广大用户的支持与帮助,不仅按照原计划增加了采集功能,也结合用户提出的需求将很多微小功能进行了改动。
此次升级改版过程中间发布了较多的测试版本,给各位用户带来的不便深感抱歉,还是那句话,原来老客户均可免费升级。
网络矿工V2012此次升级操作较原来版本增加的功能如下:
1、增加了可视化采集规则配置的功能;
2、增加了OCR文字识别的功能;
3、增加了多页采集的功能;
4、增加了__doPostBack函数的支持;
5、优化了导航规则、下一页规则的配置...
[更多...]
通常情况下,一个页面采集的数据输出的是一个表格,但对于某些情况,一个页面的数据本身就是属于一种1对多的数据关系,换句话就是两个表格的数据,且需要对应这样的关系。对于网络矿工而言,这样的数据关系可以通过数据加工一次采集完成。
举例说明:http://book.hjsm.tom.com/109314/catalog.html
可以看到这个页面是一个小说的目录,小说的目录是分卷展示,采集的时候,需要采集将分卷名和章节对应起来,这也就是我们所说的一对多的关系。 采集这样的数据需要让系统自动将卷和章节的关系对应并输出。网络矿工在数据加工中提供了“拆分行&r...
[更多...]
Posted in:
在线培训 ,
最新动态 Tags:
众所周知,__doPostBack是.Net的特有函数,所有的服务器控件在请求服务器时,都在调用__doPostBack函数,所以,应用了.Net技术平台开发的网站在处理翻页时,大部分也用到了__doPostBack函数。
在网络矿工原来的版本中,并没有处理__doPostBack函数,对于网站而言,无论是什么js函数,最终的请求都是要遵循http协议的,既然如此,就可以处理这种请求,所以,在网络矿工原来的版本中都是由用户自行通过POST方式提交数据进行处理的。但有时候viewstate有时候会很大很大,让人很烦恼,所以,从网络矿工V2012版开始,网络矿工可自己处理__doPo...
[更多...]
Posted in:
技术文档 ,
最新动态 Tags:
一个客户的实际采集案例,有点复杂,请各位提前准备相关知识,呵呵。
需求
先说需求,http://www.okbuy.com/index.php?c=topics&m=show&topicid=2976&per_page=0&brand=001006037 ,先看这个页面,是一个列表页,点击其中一款鞋进入鞋的主页,有鞋的基础信息和报价,如果此时把鼠标移动到会员价时,可以看到网站会弹出一个层,用于显示会员价格。
数据采集就是要根据列表页,进入采集所有鞋的信息,包括会员价。
分析
入口页面...
[更多...]
Posted in:
操作答疑 ,
技术文档 ,
最新动态 Tags:
网络矿工V2012新版本增加了可视化采集配置功能,采用xPath技术,用户可通过加载的网页进行采集数据的鼠标点击获取规则的操作。
网络矿工V2012测试版本已于2012年2月27日完上传到服务器及QQ群,请各位用户下载试用。
此次网络矿工V2012版本升级,主要增加了两大功能,同时还优化了原有的一些操作问题
1、增加了OCR图片识别功能;
2、增加了多页采集能力;
3、对多级导航自动翻页做了优化处理,并整体对自动翻页规则的配置做了优化;
4、增加了非网页数据输出功能,此功能后期还会进行扩展,主要是加工数据而提供,便于统一对数据库进行操作;数据加工一直就是网络矿工的强项;
5、重新加强了采集规则测试器的应用,更加容易判断采集规则的错误所在
其他还修正...
[更多...]