新增采集节点:第一步设置基本信息及网址索引页规则
节点基本信息
节点名称:
目标页面编码:
GB2312
UTF8
BIG5
区域匹配模式:
正则表达式
字符串
内容导入顺序:
与目标站一致
与目标站相反
以下选项仅在开启防盗链模式才需设定,如果目标网站没有防盗链功能请不要开启,否则会降低采集速度。
防盗链模式:
不开启
开启
资源下载超时时间:
秒
引用网址:
(一般为目标网站其中一个文章页的网址)
列表网址获取规则
来源属性:
批量生成列表网址
手工指定列表网址
从RSS中获取
RSS网址:
批量生成地址设置:
匹配网址:
(如:http://www.dedecms.com/html/test/list_(*).html,如果不能匹配所有网址,可以在手工指定网址的地方输入要追加的网址)
(*)从
到
(页码或规律数字) 每页递增:
启用多栏目通配(#)
手工指定网址:
在指定了通配规则后有些不能匹配的网址也可以在这里指定。
多栏目通配规则:
如果目标网站使用单一模板,可以在匹配网址中用"(#)"表示近似网址的差异,然后在通配规则中设定集合,并且可以指定导出栏目。
格式为:“[(#)=通配字符串; (*)=num-num; typeid=num]换行”
例如:[(#)=>labs/list_3; (*)=>1-25; typeid=>7] 匹配网址:http://www.aaa.com/(#)_(*).html
文章网址匹配规则
内容网址匹配模式:
指定包含有文章网址的区域(可以获取区域的网址、标题、图片等信息)
指定网址正则表达式(仅能获得网址信息)
网址的正则表达式:
包含有文章网址的区域设置:
区域开始的HTML:
区域结束的HTML:
如果链接中含有图片:
不处理
采集为缩略图
对区域网址进行再次筛选:
(使用正则表达式)
必须包含:
(优先级高于后者)
不能包含: