一孑 posted on 六月 20, 2010 03:51
采集网址的配置并不复杂,但如何配置一个高质量的采集网址,还是需要下点功夫,在此我们介绍一些技巧给大家。 采集网址就是我们需要采集数据的内容,这些内容在internet中唯一的标识就是Url(统一资源定位符),我们俗称为网址。就是在浏览器地址栏看到的内容。每一个网址对应一个唯一的网页,通过网址我们就可以准确的识别一个我们需要看到的网页内容。 通常情况下,我们需要采集的数据量会很多,也就是网址会很多,成百上千,甚至上万或更多,如果我们一个一个的输入,那这个工作量将会是巨大的。所以,我们必须通过一种简单的方法来实现这种成百上千个网址的解析。在网络矿工中,我们提供了网址参数来进... [更多...]

Posted in: 在线培训 , 最新动态  Tags:
一孑 posted on 六月 20, 2010 00:49
网络矿工V1.81正式发布,相比V1.8增加了以下功能: 1、支持字典数据文本导入,可成批建立字典参数,用于数据采集网址的自定义; 2、支持自定义HTTP Headers ,支持POST发布自定义headers头,支持更多网站数据的在线发布; 3、修正了POST数据时乱码的问题。 4、增加了网址日期参数; 原有网络矿工V1.8正式授权用户,请通过邮件告知,由我客服人员为您免费升级授权号。 同时网络矿工V2.0开始制作, 主要增加功能 1:支持各种类型的增量采集; 2、支持网络信息雷达

Posted in: 最新动态  Tags:
一孑 posted on 六月 5, 2010 22:03
采集网站数据有一项重要的配置,就是配置采集规则中数据的起始位置和终止位置,即采集数据的前置标志和后置标志。 前面我们已经讲解过,采集数据,实际就是从网页的源代码中截取您想要的数据。任务网页的内容都可以通过“查看源代码”的方式,查看数据。网页代码就是一个文本内容。所以,要获取数据,就要告诉软件该从哪里截取数据,到哪里结束。这个就是采集数据起始位置和终止位置。 严格意义上,任何采集数据的起始位置和终止位置都必须是唯一的,只要这样,获取的数据才可以准确。如果采集的标识无法唯一,系统首先判断是否为采集多条数据,即所谓的循环采集。如果不是,将抛弃垃圾数据。... [更多...]

Posted in: 在线培训 , 最新动态  Tags:
一孑 posted on 六月 3, 2010 00:47
网络矿工和soukey采摘对内容的匹配全部都是采用正则表达式来进行的。所以,如果了解正则,或者掌握了正则,在数据匹配方面将会带来很多意想不到的好处。但正则也有一个最大的问题,就是很难理解。 今天,在此,我们对正则做一个小小的讲解。 正则表达式是指一个用来描述或者匹配一系列符合某个句法规则的字符串的单个字符串,通常被用来检索或替换那些符合某个模式的文本内容。所以,我们可以简单理解,正则表达式就是一个符合一定语法规范的字符串,其作用就是为了可以在文本内容中找到指定的内容,或者替换指定的内容。 网络矿工就是利用正则表达式这样的一个优点来快速的找到您想要获取的数据,并... [更多...]

Posted in: 技术文档 , 在线培训 , 最新动态  Tags:

Blog Roll

    最新评论

    一孑工作室声明
    本站文章均为原创,如果转载请注明出处。

    © Copyright 2010『一孑工作室』
    管理我的网站
    京ICP备10018014号