网络矿工在数据采集方面,对结构化数据的支持是非常好的,但此时就会带来一个问题,当大量数据采集下来保存的时候,性能问题该如何解决。
最近遇到好多客户都在采集大量数据,数据量都在几百万的数据量,在这个过程中多多少少的都遇到了问题。在此给出一些建议以供参考:
1、网络矿工是一个数据采集软件,不是一个数据库管理软件,所以,数据性能的问题并非是网络矿工可以解决的,这是非常重要的,如果数据性能下降,意味着采集的性能就会受到影响。这是一个相互影响的问题,因为数据插入是在网络矿工中完成,insert的性嫩嫩个降低,无形就降低了采集性能;
2、如果您遇到的是一个大数据量的采集任务,首先建议您不要急于开始数据采集,而是首先应该进行方案设计。数据该如何存储?每日的增长量是在多少?那些数据可以省略(这个取决于您对数据的使用) ?同时,网络矿工改如何协作?这是一个完整的问题,并非是解决了一个点就万事OK的,这是一个方案,并非是一个工具可以解决的。在此遇到问题,也可在论坛留言,会由我们的技术人员给出建议,以帮助您完成这个过程;
3、性能测试,方案设计完成是否可行?需要进行实地测试,测试的各个指标数据需满足您的预期目标,只有测试通过,方案方可实施,否则后期遇到问题,将有可能推翻方案;
4、方案实施,这个就很简单了。