一孑 posted on 七月 23, 2009 07:21
最近一直在完善Soukey采摘的两个功能:数据加工及数据导出 1、数据加工:可支持在数据采集后,进行字符串合并、字符串替换、字符串截取等操作,这样做可以有效的提升需要使用数据的精度,尽管这样做会降低数据采集的性能; 2、数据导出:在1.0版本中数据导出是一个鸡肋的功能, 此次对数据导出进行了有效加强,可以导出:文本、excel、access、mssqlserver、mysql等,同时还可进行web发布; 配合数据加工的功能,可以在一定程度上实现自动化的数据采集、加工、发布等操作,具体完善的功能可参见稍后的版本发布说明。 完成此功能后,暂时不对Souk... [更多...]

Posted in:   Tags: , ,
新建采集任务,在采集规则中,限制条件可选择“匹配时去掉网页符号”,今日(2009-7-15)发现无法去掉网页符号,此为一个bug。 修正如下:(前提条件为:您具备一定的c#编程能力,如无法自行修改,请稍等最新版本) 1、下载源码,打开项目工程; 2、找到文件cGatherWeb.cs文件,在Gather目录下; 3、 第221行,strCut += "[^<>].*?";  删除“.”,修改后为:strCut += "[^<>]*?... [更多...]

Posted in: 技术文档  Tags:
一孑 posted on 四月 20, 2009 10:47
此次修改了一个重大bug,优化了一个功能 1、Url地址参数,如果参数数字是递减,会出错,此bug已经修正。 2、一个采集任务中如果存在非法的网址,或Url未能找到,会报错,此错误会终止任务运行,现在将错误忽略,任务继续执行,在任务中记录了出错的网址数,并且在日志中也做了说明。 如果任务采集的网址数量和出错的网址数量相等,则判断此任务执行失败。 请通过本站下载,版本已经更新。

Posted in:   Tags:

Blog Roll

    最新评论

    一孑工作室声明
    本站文章均为原创,如果转载请注明出处。

    © Copyright 2010『一孑工作室』
    管理我的网站
    京ICP备10018014号