最近一直在完善Soukey采摘的两个功能:数据加工及数据导出
1、数据加工:可支持在数据采集后,进行字符串合并、字符串替换、字符串截取等操作,这样做可以有效的提升需要使用数据的精度,尽管这样做会降低数据采集的性能;
2、数据导出:在1.0版本中数据导出是一个鸡肋的功能, 此次对数据导出进行了有效加强,可以导出:文本、excel、access、mssqlserver、mysql等,同时还可进行web发布;
配合数据加工的功能,可以在一定程度上实现自动化的数据采集、加工、发布等操作,具体完善的功能可参见稍后的版本发布说明。
完成此功能后,暂时不对Souk...
[更多...]
Posted in: Tags:
最新消息,
soukey采摘,
bug
新建采集任务,在采集规则中,限制条件可选择“匹配时去掉网页符号”,今日(2009-7-15)发现无法去掉网页符号,此为一个bug。
修正如下:(前提条件为:您具备一定的c#编程能力,如无法自行修改,请稍等最新版本)
1、下载源码,打开项目工程;
2、找到文件cGatherWeb.cs文件,在Gather目录下;
3、 第221行,strCut += "[^<>].*?"; 删除“.”,修改后为:strCut += "[^<>]*?...
[更多...]
Posted in:
技术文档 Tags:
bug
此次修改了一个重大bug,优化了一个功能
1、Url地址参数,如果参数数字是递减,会出错,此bug已经修正。
2、一个采集任务中如果存在非法的网址,或Url未能找到,会报错,此错误会终止任务运行,现在将错误忽略,任务继续执行,在任务中记录了出错的网址数,并且在日志中也做了说明。 如果任务采集的网址数量和出错的网址数量相等,则判断此任务执行失败。
请通过本站下载,版本已经更新。