一孑 posted on 八月 25, 2010 19:05
Normal 0 7.8 磅 0 2 false false false EN-US ZH-CN X-NONE MicrosoftInternetExplorer4 ... [更多...]

Posted in: 技术文档 , 在线培训 , 最新动态  Tags:
一孑 posted on 六月 3, 2010 00:47
网络矿工和soukey采摘对内容的匹配全部都是采用正则表达式来进行的。所以,如果了解正则,或者掌握了正则,在数据匹配方面将会带来很多意想不到的好处。但正则也有一个最大的问题,就是很难理解。 今天,在此,我们对正则做一个小小的讲解。 正则表达式是指一个用来描述或者匹配一系列符合某个句法规则的字符串的单个字符串,通常被用来检索或替换那些符合某个模式的文本内容。所以,我们可以简单理解,正则表达式就是一个符合一定语法规范的字符串,其作用就是为了可以在文本内容中找到指定的内容,或者替换指定的内容。 网络矿工就是利用正则表达式这样的一个优点来快速的找到您想要获取的数据,并... [更多...]

Posted in: 技术文档 , 在线培训 , 最新动态  Tags:
一孑 posted on 五月 2, 2010 12:39
网络矿工是支持海量数据采集的,海量数据没有一个准确的定义,但我曾经测试,连续采集上百万条的数据是没有问题的,且网络矿工队资源占用也非常少(这部分的数据已经忘了,无法给出)。在此并非主要谈网络矿工采集海量数据的问题,而是重点说一下海量数据库的操作(当前仅考虑MSSqlServer),尽管与网络矿工采集无关,但还是对此做一了解: 1、网络矿工在连续insert的时候是随时关闭连接的,不会长时间打开连接进行操作,避免对资源的占用; 2、对海量数据维护操作时,连续update时一定要确保数据表的优化及服务器性能,否则会经常出现超时,我曾测试,连续update45W条数据(表大概... [更多...]

一孑 posted on 四月 8, 2010 18:41
网络矿工在数据采集方面,对结构化数据的支持是非常好的,但此时就会带来一个问题,当大量数据采集下来保存的时候,性能问题该如何解决。 最近遇到好多客户都在采集大量数据,数据量都在几百万的数据量,在这个过程中多多少少的都遇到了问题。在此给出一些建议以供参考: 1、网络矿工是一个数据采集软件,不是一个数据库管理软件,所以,数据性能的问题并非是网络矿工可以解决的,这是非常重要的,如果数据性能下降,意味着采集的性能就会受到影响。这是一个相互影响的问题,因为数据插入是在网络矿工中完成,insert的性嫩嫩个降低,无形就降低了采集性能; 2、如果您遇到的是一个大数据量的采集任... [更多...]

Posted in: 技术文档 , 在线培训 , 最新动态  Tags:
一孑 posted on 二月 19, 2010 16:19
理论上说,数据防采的可能性并不大,这是由本身的技术所决定的。熟悉技术的人都知道,在打开网页的时候,实际是已经将网页数据缓存到本地了,只是通过浏览器进行解析而已,这就决定了这些网页数据的可见性,既然可见,就可以获取。但对于任何事情,都讲究一个性价比,所以,从根本上无法杜绝数据被采,那么我们就增加其采集的成本,通过此种方法使其达到不可承受的程度,也就从另一个角度来讲解决了防采的问题。事务是两面性,增加其采集成本的同时,也会增加自身的网站制作成本,这个不要被忽略掉。 介绍几种常用的防采方法: 1、将关键信息作特殊处理:      譬如:... [更多...]

Posted in: 在线培训 , 技术文档  Tags:
一孑 posted on 一月 27, 2010 20:03
1、采集延时:可控制采集任务请求网站的间隔,对于部分网站为了防止数据采集或其他行为限制了访问频率,过于频繁的访问会短时间内封其IP,所以,系统提供了采集延时功能,及每成功采集一次,系统暂停一段时间再进行第二次采集; 2、 支持分层数据采集,及所谓的多页采集,级联采集,当前支持数据对应为:一对一和一对多; 3、支持更复杂的导航规则处理,给用户最大限度的进行导航规则的设定; 4、正则分析器,将采集正则输出,利用正则分析工具来判断定制的采集规则是否正确; 5、修正下一页自动翻页?bug

Posted in: 技术文档 , 最新动态  Tags:
一孑 posted on 十二月 9, 2009 10:19
越发的感觉数据采集是一个专业的活了。无论是Soukey采摘或是网络矿工,充其量就是一个采集工具,最多也就是工具是否好用,是否可以满足要求而已。但要知道,任何工具都不可能满足所有的要求,同时很多情况下用户也未必能把工具的所有功能活学活用,兼之以上两个原因,就出现了无法采集数据的情况或者说采集到了数据,但却无法应用。 从事过软件行业的人都了解,只要明确了需求软件可以是无所不能的(当然这句话是有点夸大其词的),如果软件要形成产品,作为厂商而言,在考虑成本的情况下,是会选择性价比较优的功能为首先推出。同时,软件功能要得到很好的应用,界面又是重要的一环,有很多软件都是由于界面的问题限制了用... [更多...]

Posted in: 操作答疑 , 技术文档 , 最新动态  Tags:
1、增量采集。通常增量采集的理解就是断点续采。但增量采集的真正意义是可以去更新某个数据源的新增数据,譬如:定时更新某网站的新发布的新闻,定时更新某论坛新回复的帖子,定时更新某博客新发布的文章等等。这些新增的内容通常是按照某种规律进行显示,或从尾新增或从头新增。当前Soukey采摘/网络矿工还不支持此种增量采集,不过此功能正在研发,因设计核心算法的一些问题,所以,此功能的研发工作会延后一些。 2、单个任务定制不同页面的采集规则,这种情况在采集过程汇总很少见到, 通常是对一中类型的页面定制一种规则。但此种情况还是存在。对这种情况,系统暂不做支持,建议拆分几个任务来进行,最后通过数据加... [更多...]

Posted in: 技术文档 , 最新动态  Tags:
新建采集任务,在采集规则中,限制条件可选择“匹配时去掉网页符号”,今日(2009-7-15)发现无法去掉网页符号,此为一个bug。 修正如下:(前提条件为:您具备一定的c#编程能力,如无法自行修改,请稍等最新版本) 1、下载源码,打开项目工程; 2、找到文件cGatherWeb.cs文件,在Gather目录下; 3、 第221行,strCut += "[^<>].*?";  删除“.”,修改后为:strCut += "[^<>]*?... [更多...]

Posted in: 技术文档  Tags:
c# 导出Excel的方法很多,在此不进行一一介绍,可通过网上查找。在此仅说明如果使用excel组件时,导出excel后无法彻底关闭excel的问题。 通过 new Interop.Excel.Application()后,在系统中就建立了excel.exe进程,当完成导入工作后,尽管使用了GC.Collect(),但还会存在有可能无法冠词excel进程的问题。给出的方法是杀掉excel进程,但需要在杀excel进程 前需要获知程序创建的进程ID,以便通过ID杀掉进程,而不是通过名称杀掉进程,看到网上有些例子是通过名称杀进程,这样做有可能导致正在使用的excel文件也会被杀掉,造... [更多...]

Posted in: 技术文档  Tags: , ,

Blog Roll

    最新评论

    一孑工作室声明
    本站文章均为原创,如果转载请注明出处。

    © Copyright 2010『一孑工作室』
    管理我的网站
    京ICP备10018014号