首页全部列出模式适用于分页地址全部显示出来的情况,如下图:
上下页模式适用用分页地址仅列出一部分的情况,如下图
a.首页全部列出
我们以网址http://bbs.locoy.com/spider-140339-1-1.html为例,获取到整个分页区域的开始和结束
查看源代码:
链接提取
链接提取有2种模式:自动识别;手动设置规则。
“自动识别”:采集器会在上面的设置的范围内,自动匹配到分页地址
“手动设置规则”:有的时候采集器识别分页的时候遇到无法识别或者识别的不是很准确,
我们就可以把分页的格式写上去,来确保识别分页的正确性。
本例中我们用“手动设置规则”给大家讲解
取a链接代码格式放入,将其中需要获取的分页地址,用[参数]表示,然后在下面进行[参数1]组合,若有多个参数,依次为[参数1],[参数2],[参数3]...;若[参数1]不是绝对地址,则相应补全拼接为绝对地址。
设置如下图
b.上下页模式
请参考:软件操作 > 网址采集规则 > 列表上下页分页 教程原理设置
c.其他设置
定义了最大内容分页数量,每次最大采集数量,分页连接代码等。
d.数据来源
数据来源设置为:默认页和内容分页源码