火车头采集器网址规则设置的方法详细介绍
时间:2021-01-29 14:25:11 作者:无名 浏览量:53
火车头
采集器是一款多功能专业的采集工具,在使用该软件的过程中,用户可以感受到强大的内容采集以及数据导入的功能,能够为我们采集任何
网站上面的内容,包括文字、图片、文件等等。该软件中通过采用自定义用户CMS系统模块,能够实现任何网页数据发布到远程
服务器的采集。接下来给带来的是使用该软件过程中,网址规则设置的详细教程,帮助小伙伴们更好的上手使用该软件进行采集,同时本站也提供该软件的
下载,有需要的小伙伴可以在本站直接下载使用。
火车头采集器网址规则设置详细教程
首先我们打开电脑中下载安装好的火车头采集器之后,我们在软件主页面中点击“新建”按钮,创建一个新的任务,在这里用户还需要填写任务名,以及设置具体的采集网址规则。在设置采集采集网址规则的过程中,还需要分别设置列表页采集规则和列表页所在的文章页规则,接下来给大家详细介绍一下设置规则。
第一步:在软件主页面中添加起始网址,点击“添加”按钮即可,在这里可以选择批量/多页,在地址格式设置需要采集的网页链接,所有确定之后点击“完成”按钮即可,此步骤目的是确立有多少个栏目分页链接。
火车头采集器 图二
采集网页链接技巧说明:首先确定要采集的网页栏目页,分别查看栏目分页1、分页2和分
页3链接规律,对比后会发现分页2和分页3链接很像,只有2和3变化了(分页1其实也是如此,其实绝大多数的网站栏目页分页都是等差数列来排列的。因此,在填写规则是选择等差数列,在地址格式处填写分页2的链接,将变化的数字用(*)代替,根据栏目分页的多少设置项数即可。
第二步:多级网址获取,点击“添加”按钮之后,在这里选择网址获取的选项,然后再添加提取网址的规则。使用熟练之后,用户还可以选择结果网址过滤功能,将需要包含的网址和不必包含的网址写进去,可以测试一下规则是否填写正确,然后保存即可,此步骤目的是确立每个栏目下的文章页链接。
火车头采集器 图三
多级网址获取技巧说明:我们要获取的是该栏目下的文章页链接,去原网页查看栏目分页
的源代码,在该源码页找到第一篇文章页链接的位置,然后在上面选取一小段通用代码,一定是每个栏目页都会出现的代码,通常的表现形式会带有list或者article的代码。
- 软件性质:国产软件
- 授权方式:共享版
- 软件语言:简体中文
- 软件大小:32165 KB
- 下载次数:6 次
- 更新时间:2021/1/23 10:22:04
- 运行平台:WinXP,Win7,...
- 软件描述:火车头采集器是一款专业的互联网数据抓取、处理、分析,挖掘软件,可以灵活迅速地抓取... [立即下载]
相关资讯
相关软件