1、增量采集。通常增量采集的理解就是断点续采。但增量采集的真正意义是可以去更新某个数据源的新增数据,譬如:定时更新某网站的新发布的新闻,定时更新某论坛新回复的帖子,定时更新某博客新发布的文章等等。这些新增的内容通常是按照某种规律进行显示,或从尾新增或从头新增。当前Soukey采摘/网络矿工还不支持此种增量采集,不过此功能正在研发,因设计核心算法的一些问题,所以,此功能的研发工作会延后一些。

2、单个任务定制不同页面的采集规则,这种情况在采集过程汇总很少见到, 通常是对一中类型的页面定制一种规则。但此种情况还是存在。对这种情况,系统暂不做支持,建议拆分几个任务来进行,最后通过数据加工工具来实现数据的合并。

 


Posted in: 技术文档 , 最新动态  Tags:
不允许评论

Blog Roll

    最新评论

    一孑工作室声明
    本站文章均为原创,如果转载请注明出处。

    © Copyright 2012『一孑工作室』
    管理我的网站
    京ICP备10018014号