极速下载站 —— 提供优质软件下载服务,感受全新的极速下载体验!

最近更新 | 软件专题 | 软件分类 | 软件排行

您的位置:极速下载站资讯首页软件教程电脑软件教程 → 火车采集器软件术语详细介绍

火车采集器软件术语详细介绍

时间:2017-03-24 11:07:13  作者:不思议游戏  浏览量:25

火车采集器软件术语详细介绍预览图

1.采集任务
采集任务是火车采集器中对于数据采集和数据发布任务的完整配置,包含采集规则和发布模块。

2.采集规则
即我们对如何采集和采集什么的问题给出一些设置让采集器按照设置的规则来执行,
这个设置可以从火车采集器里面导出保存为.ljobx文件,也可以再次导入火车采集器。

3.发布模块
在火车采集器中,发布模块是对“将已经采集到的数据发布到哪里”进行的设置。
包括WEB在线发布模块和数据库发布模块,其设置分别可以导出保存为.wpm文件和.dbm文件,
并可以再次导入火车采集器,多次使用。

4.发布接口
发布接口是一个小型的页面程序,通常和WEB在线发布模块配合使用来满足用户的特定需求。
即采集器将采集的数据发送到发布接口文件中,接口文件得到数据,并按照用户特定需求灵活地处理数据。

5.标签
是指用来提取某项内容信息的一个字段名字,由用户在编辑规则的时候指定,
比如标题、手机号、邮件、作者,内容标签采集到的信息在发布模块中就可以通过该标签名对应获取到,
格式为[标签:标签名]如[标签:标题]。
标签在火车采集器里面有分为两种:分别为列表页标签和内容页标签,
顾名思义列表页标签就是在获取列表页时(即采网址时)就获取到内容信息,
内容页标签是在获取内容页或多页内容时(采内容)才获取内容信息。
注:通常还有一种说法为 html标签,这里的标签是指一些html代码里面的属性标识符,如:<a href里面的a标签,里面的font标签为html标签,该术语在内容处理的html标签排除项出现。

6.(*)
在使用火车采集器时经常会遇到这个符号,它是变量的通用符号,
如果我们只需要知道这个变量的变化规律,而不需要关心这个变量到底是什么,这时就可使用这个符号代替。

7.[参数]
用来匹配某项准备提取信息的标记标签,如想要在代码中提取组合出某种格式。
以从代码"mClk(this,'108484','134217', '168475','1');"中提取组合出新的地址格式为例。
"mClk(this,'[参数]','[参数]', '[参数]','1'); ",按照次序,108484参数就是参数1,依次类推。
实际需要的地址为以下的地址格式:bbs/read.php?id=[参数1]& sort=[参数3]&action=[参数2],
上面代码中的3个参数和下面地址中的id,soft和action参数要对应相应的值,
次序不要颠倒。这样就组合成了新的地址格式。

8.起始网址
用来获取下级链接地址的入口网址,可以为一条或多条,
可以通过添加起始网址向导添加同格式多条网址或导入文本网址。
如果没有定义多级网址的获取方法,这些地址即作为内容页网址进行内容采集。

9.多级网址
依次根据列表里面的多级网址顺序采集分析地址,通过依次采集分析到最后一级得到内容页地址。
多级网址的获取可以使用页面自动分析和手动获取的方法采集下级网址,
在采集的过程中,可以同时采集列表分页及提取列表页附加参数。

10.Cookie
是在Http请求访问中记录您的用户信息即登录信息的一段用于与服务器进行交互的字符串。
浏览器中使用时通常还会以文本形式记录到您的IE缓存目录中,
以便下次在有效期内不用输入用户信息即可继续访问验证权限的网页。

11.User-Agent
浏览器标识,是用来向服务器通知您使用的客户端类型,
在某些需要登录的网页可能需要同时验证Cookie和User-Agent,
所以需要您将其设置为与本机浏览器同样的格式。

12.分页
列表或内容页面较长,分成多个页面显示,采集时需要将所有子页的内容组合起来,
这样的子页面就是分页(列表分页或内容分页)。

13.多页
有些情况下,需要采集一个页面对应的网址,图片等内容时,

12下一页>

火车采集器 9.8.0 官方版

火车采集器图片
  • 软件性质:国产软件
  • 授权方式:免费版
  • 软件语言:简体中文
  • 软件大小:23789 KB
  • 下载次数:2977 次
  • 更新时间:2019/4/8 17:01:06
  • 运行平台:WinAll...
  • 软件描述:火车采集器是使用人数比较多的互联网数据挖掘软件。能采集99%的网页,就算网页需要... [立即下载]

相关资讯

相关软件