网络矿工数据采集软件带有一个数据加工的套件,不知是因为功能有些鸡肋,还是大家都忽视了,并没有接到有数据加工工具的疑问。 最近在处理Tab页采集的问题,如果放到采集功能来处理,会将采集任务大大复杂化,且不可控的风险还是很大,所以,将tab页的数据采集放到了数据加工中,将数据表进行合并,从而完成tab页模式的最终数据采集。 其他网络矿工数据采集软件不仅采集能力强大,其实数据编辑和加工的能力也不可小觑,往往在实际的应用中,数据采集都是第一步,获取数据后,还要进行其他的应用操作,如果可以充分利用网络矿工所内置的数据加工套件,可大大提升数据质量,对后续的应用提供完美支持,即便不是... [更多...]

Posted in: 技术文档 , 最新动态  Tags:
一孑 posted on 八月 22, 2011 02:07
今天探讨一个技术问题吧,c#内存溢出错误,即system.outofmemoryexception 最近一直在研究海量数据采集及智能化数据识别的问题。由此引发了内存溢出。因为是多线程系统,对内存溢出的判断不是很好进行,采用了很多方法来进行,总结一下: 1、首先检查代码,尤其是那些循环的操作;避免使用while(true),如果必须使用,则一定要完善退出循环的问题; 2、检查资源的释放,使用完资源必须释放;需要深入了解IDisposable,同时需要深入了解什么是托管资源,什么是非托管资源; 3、多线程程序,做好同步操作;避免出现资源争夺; ... [更多...]

Posted in: 技术文档 , 最新动态  Tags:
一孑 posted on 四月 16, 2011 20:36
采集规则配置技巧,前面讲到了采集网址的一些技巧和分析,现在我们讲解一下采集规则的技巧。对于采集规则我们已经讲过很多次了,核心是正则表达式。但正则对于很多非技术人员而言是一个很抽象很不容易理解的内容。那么又该如何排出采集过程中遇到的问题呢? 1、利用系统提供的正则分析器来进行。当用户配置采集规则完成后,可通过点击“采集规则分析”按钮,系统会自动打开网页源码和采集规则表达式,用户可通过此进行分析采集规则配置是否正确,“|”代表每个采集规则的分割,<名称>代表采集规则的名称。只不过通过采集规则进行匹配后,系统体现的是一个列... [更多...]

Posted in: 在线培训 , 技术文档 , 最新动态  Tags:
一孑 posted on 四月 7, 2011 17:55
直接影响数据采集的只有两个方面:采集网址和规则。其他的所有配置都是为了可以将采集工作做得更好,譬如:防采控制,数据保存等等。但对于采集而言,如果无法正确采集数据,其他都是徒劳。所以,采集至关重要的只有采集网址和采集规则。通常情况下,最难配置的也是采集网址和采集规则。容易发生问题的也是这两个方面。结合我的配置采集任务的经验,来讲讲在配置过程中,常出现错误的地方: 1、配置的采集网址无效 :很多情况配置的采集网址都有可能无效,因为我们通过浏览器地址栏看到的网址往往并非准确。有可能会有几种原因导致:iframe、post请求、ajax请求。    ... [更多...]

Posted in: 技术文档 , 在线培训 , 最新动态  Tags:
一孑 posted on 八月 25, 2010 19:05
Normal 0 7.8 磅 0 2 false false false EN-US ZH-CN X-NONE MicrosoftInternetExplorer4 ... [更多...]

Posted in: 技术文档 , 在线培训 , 最新动态  Tags:
一孑 posted on 六月 3, 2010 00:47
网络矿工和soukey采摘对内容的匹配全部都是采用正则表达式来进行的。所以,如果了解正则,或者掌握了正则,在数据匹配方面将会带来很多意想不到的好处。但正则也有一个最大的问题,就是很难理解。 今天,在此,我们对正则做一个小小的讲解。 正则表达式是指一个用来描述或者匹配一系列符合某个句法规则的字符串的单个字符串,通常被用来检索或替换那些符合某个模式的文本内容。所以,我们可以简单理解,正则表达式就是一个符合一定语法规范的字符串,其作用就是为了可以在文本内容中找到指定的内容,或者替换指定的内容。 网络矿工就是利用正则表达式这样的一个优点来快速的找到您想要获取的数据,并... [更多...]

Posted in: 技术文档 , 在线培训 , 最新动态  Tags:
一孑 posted on 五月 2, 2010 12:39
网络矿工是支持海量数据采集的,海量数据没有一个准确的定义,但我曾经测试,连续采集上百万条的数据是没有问题的,且网络矿工队资源占用也非常少(这部分的数据已经忘了,无法给出)。在此并非主要谈网络矿工采集海量数据的问题,而是重点说一下海量数据库的操作(当前仅考虑MSSqlServer),尽管与网络矿工采集无关,但还是对此做一了解: 1、网络矿工在连续insert的时候是随时关闭连接的,不会长时间打开连接进行操作,避免对资源的占用; 2、对海量数据维护操作时,连续update时一定要确保数据表的优化及服务器性能,否则会经常出现超时,我曾测试,连续update45W条数据(表大概... [更多...]

一孑 posted on 四月 8, 2010 18:41
网络矿工在数据采集方面,对结构化数据的支持是非常好的,但此时就会带来一个问题,当大量数据采集下来保存的时候,性能问题该如何解决。 最近遇到好多客户都在采集大量数据,数据量都在几百万的数据量,在这个过程中多多少少的都遇到了问题。在此给出一些建议以供参考: 1、网络矿工是一个数据采集软件,不是一个数据库管理软件,所以,数据性能的问题并非是网络矿工可以解决的,这是非常重要的,如果数据性能下降,意味着采集的性能就会受到影响。这是一个相互影响的问题,因为数据插入是在网络矿工中完成,insert的性嫩嫩个降低,无形就降低了采集性能; 2、如果您遇到的是一个大数据量的采集任... [更多...]

Posted in: 技术文档 , 在线培训 , 最新动态  Tags:
一孑 posted on 二月 19, 2010 16:19
理论上说,数据防采的可能性并不大,这是由本身的技术所决定的。熟悉技术的人都知道,在打开网页的时候,实际是已经将网页数据缓存到本地了,只是通过浏览器进行解析而已,这就决定了这些网页数据的可见性,既然可见,就可以获取。但对于任何事情,都讲究一个性价比,所以,从根本上无法杜绝数据被采,那么我们就增加其采集的成本,通过此种方法使其达到不可承受的程度,也就从另一个角度来讲解决了防采的问题。事务是两面性,增加其采集成本的同时,也会增加自身的网站制作成本,这个不要被忽略掉。 介绍几种常用的防采方法: 1、将关键信息作特殊处理:      譬如:... [更多...]

Posted in: 在线培训 , 技术文档  Tags:
一孑 posted on 一月 27, 2010 20:03
1、采集延时:可控制采集任务请求网站的间隔,对于部分网站为了防止数据采集或其他行为限制了访问频率,过于频繁的访问会短时间内封其IP,所以,系统提供了采集延时功能,及每成功采集一次,系统暂停一段时间再进行第二次采集; 2、 支持分层数据采集,及所谓的多页采集,级联采集,当前支持数据对应为:一对一和一对多; 3、支持更复杂的导航规则处理,给用户最大限度的进行导航规则的设定; 4、正则分析器,将采集正则输出,利用正则分析工具来判断定制的采集规则是否正确; 5、修正下一页自动翻页?bug

Posted in: 技术文档 , 最新动态  Tags:

Blog Roll

    最新评论

    一孑工作室声明
    本站文章均为原创,如果转载请注明出处。

    © Copyright 2012『一孑工作室』
    管理我的网站
    京ICP备10018014号