采集过网页数据的用户都知道,要配规则,错一个符号和错一个字母都匹配失败无法采集。今天极速小编为你介绍一款全新的网页数据采集工具(网络神采),它可以采集任意网页上的数据,采用智能采集模式,不用匹配规则,还支持二次开发,需要的网友可以下载使用。
登陆界面
神采主界面
基本简介
《网络神采》是一款轻量级的采集软件,用于快速采集、下载网页数据。软件速度快、好用、免费。支持智能采集(不用配规则)、可视化采集(不用看源文件),支持二次开发、分布式部署。为用户的大数据分析、信息化平台,提供稳定、持续、准确的数据资源。
功能介绍
1、采集强度
支持JS解析、POST分页、登录采集、跨层采集。对于疑难采集页面,有成熟的解决方案。
2、速度快
支持多任务同时运行,每个任务又可以设置多线程,确保运行效率。
3、规模化
支持任务多级分类、批量管理。支持云服务器分布式部署,管理员团队协合。
4、流程化
支持定时采集,任务定时自动启动。通过二次开发,实现流程化的信息采集、信息处理。
5、运行稳定
系统运行稳定,要求“0 bug”。目标网页改版后,自动通知管理员。
6、准确性
定制好任务后,采集准确率可达100%,即一条不漏。
神采在线发布器
神采正则式测试器
神采网址编码器
更新日志
1、增加定期重启软件功能。
2、修复bug:定时采集启动任务时会进队列2次。
3、增加设置:特殊结果设置 -> 记录任务名称。
4、修复bug:Win7下启动服务IO异常。
5、按任务统计插件。
6、修复bug:文本查看器切换到空白单元格会出错。
7、如果不下载文件,不要再生成子目录(即使选中设置)。
8、F9运行文件夹下所有任务后,子文件夹的任务状态没有改变。
9、修复bug:访问休息间隔设置为“0-1秒”时失效。
10、处理JS中的相对地址时,可识别“'”前面的转义符“\”。
11、发生 Worker Thread Error 的异常时,可记录异常的详细内容。
12、读取网址时出错后,可暂停任务。
13、发生 Worker Thread Error 的异常时,任务可暂停;若暂停失败,则停止任务。
14、修复bug:继续任务时,如果任务进入任务队列,则会重新开始任务。
15、停止任务,同样要写日志。
16、改进了任务队列的查询算法。
17、改进了机器码的可读性。
18、Worker Thread Error: 引发类型为“System.OutOfMemoryException”的异常。该异常发生后,可暂停任务。
19、保存“提取网址”时如果出错,可恢复。
20、增加设置:如果“使用插件处理采集结果数据行”失败(即返回“false”),仍显示采集结果。
21、废弃设置:关闭软件时,如果有软件正在运行,强制停止所有任务。
22、改进“源文件查看器”用户体验3处:Cookie变化、粘贴POST参数时自动分离、菜单快捷键。
23、捕获地址时,如果某个参数有变化,文本框背景色则变红。
24、将检查“关键规则”调整到“采集结果筛选”之前。
25、更新插件接口(IBget 3.4),更新内容:CheckSchedule、Create 新增参数:lastTaskState、lastPausingReason。
26、请求休息间隔,支持随机数。
27、请求重试可以设置为无限次数,同时增加“重试休息间隔”、“重试错误范围”设置。
28、任务增加设置:动作失败后不暂停任务。
29、下载文件时,只请求一次。
30、运行整个文件夹的任务时,增加快捷键:F9。
31、修复bug:批量暂停正在启动的任务时,会有“运行中”状态闪过。
32、解决:运行信息窗口资源释放问题。
33、使用插件处理结果数据行后,如果返回false,则数据行不再显示。
34、循环采集拆分字符串数组时,保留空值。
35、修复内存bug一处。
36、修复bug:查看等待区出错:集合已修改;可能无法执行枚举操作。
37、修复bug:由于插件日志回调事件,会引发异常:远程对象已断开。
38、修复bug:设置窗口如果不操作,2分钟后会抛异常:远程对象已断开。
39、更新插件接口(IBget 3.3),更新内容:ExtractResult 新增参数:rowIndex;Create 新增参数:supportAsyncCall。
40、创建插件时如果出错,任务不再提示连接数据库。
41、特殊结果 -》 记录当前网址,如果有POST参数,则包含在其中。
42、修复bug:任务完成后取消定时采集,在选中“使用插件检查定时采集”时仍起作用。
43、修复bug:源文件查看器预览功能,不能预览框架页。
44、增加复制采集规则功能。
45、提取下一网址时,如果与网址队列重复,则提示:提取 n 条,已去重.
46、连续提取下一层网址失败已达到 n 次后,不再提取下一页网址,不然下次请求时会重复提取。
47、修复几处内存溢出问题。
48、修复bug:文本查看器 html 方式查看,关闭窗口后,再打开出错“未将对象引用设置到实例”。
49、改进定时采集检查思路:取当前时间并缓存,这样就没有了定时偏差。
文件信息
文件大小:1511424 字节
文件说明:网络神采 6.2.16 共享版
文件版本:6.2.16.26114
MD5:FD84A690A093DE84F16C623FD9A77CE3
SHA1:8C7394436EC9B31B635AB0024FFBC91CE03115A6
CRC32:2F2B1941
包含文件
bget.exe
htmlview.exe
poster.exe
RegexTester.exe
Updater.exe
相关搜索:采集
网络神采是一款好用的网页信息采集软件。使用网络神采可以轻松选择网站中的网站信息进行采集;
极速小编这一次就给大家演示一下怎么使用网络神采来采集58同城中的租房信息吧。点击选中网络神采主界面中的任务列表中的58同城-租房,然后点击软软件工具栏中的运行按钮,开始执行采集58同城租房网页信息;
网络神采正在采集58同城上面的租房信息。目前网络神采已经提取了32个网址,完成提取6个网址。当前采集了5个网页,采集结果为464个网页;
网页信息采集成功,这时候我们可以看到网络神采提示已完成。58同城-租房的采集任务完成提取64个网址,从522个结果中采集了63个结果;
接下来我们就可以将采集结果导出到电脑文件夹中。点击网络神采任务列表中的任务,然后点击右键菜单中的导出,就可以将网页采集任务导出到电脑中;
在文件另存为窗口中,点击打开想要用来保存采集结果XML文件的文件夹。网络神采会自动对XML文档进行命名,点击保存就可以将XML文件保存到选中的文件夹中;
XML文档成功保存到指定的文件夹中,我们可以双击打开XML文档,查看网络神采的网页采集结果;