时间:2018-04-03 17:02:55 作者:Crush 浏览量:27
在http模拟请求中用户可以填写来源页、读取本地登录信息的COOKIE值、网页压缩、网页编码、启用自动提交的运行间隔时间。
在任务的详情中,可以查看任务ID、任务名称、本次采集数量、当前进度、已请求量、下载文件数量、本次启动时间、运行用时、任务启动次数、历史总数据量。
在新建任务规则中用户先要在网址采集规则中输入起始网址,选择获取内容的获取方式,如自动获取地址链接和手动设置规则获取。
内容采集规则可以选择从源码中获取数据、生成固定格式的数据、已有标签组合的数据获取方式,还可以前后截取、正则提取、正文提取等提取方式。
在内容发布规则中,用户可以选择文件输出的保存格式、保存方式、保存位置、文件模板、文件名格式、文件编码。
在新建文件的其他设置中有,任务运行线程及时间、Http请求设置、文件图片下载、Ftp/SFtp1001 文件上传、代理设置、插件、排除重复设置、发布相关、其他配置。
文件图片下载可以选择所有文件保存根目录的位置、文件链接地址前缀、文件下载模式、同时文件下载数、单文件下载分块数、下载的图片同时加上水印。
发布相关中,可以开启清空该任务网址库、标记所有记录为已发的设置,还能选择每次比较大发布记录条数、数据发布超时时间限制等设置。
在其他配置,可以设置采集预警配置的请求成功数、发送邮箱的地址、用户名、密码、STMP地址、SMTP端口和接收邮箱。
由于火车采集器的优质性能,对网页信息的采集准确性,所以适用的群体非常多,应用范围非常广泛,例如进行论坛或博客迁移、商业情报采集 、信息挖掘、个人信息检索等,功能十分强大。