正确编写采集规则才能为网站不断充实内容,从而提高网站的丰满程度,提高收录,尽快让网站产生经济效益。dedecms是目前网站使用最多的开源程序,故以此为例介绍如下。因内容较多,本篇分三个章节介绍。
方法/步骤
1
首先进入网站后台。采集-采集节点管理-增加新节点。
2
在“选择内容模型”下拉菜单中选“图片集”,确定。
3
下面开始正式编写规则。节点名称随便填一个容易记住的名称;编码与要采集站点编码一致。
4
随便打开要采集站点页面,右键-查看网页源代码,在源代码的最上面有图中标示的“目标页面编码”。
5
打开要采集的栏目,查看列表页,并点击列表页下面的分页,查看链接地址的变化情况,特别是第一页与其它页的不同,可以发现其变化只有最后面的一个数字不同。
6
拷贝链接地址到编写规则,并将变化的数字改为(*),括号为英文输入下的括号,并将下面的(*)中的数字改为从1到5,如图。
7
测试一下看是否正确。
8
下面编写“文章网址匹配规则”。打开要采集的列表中的某个图片页面。
9
右键-查看网页源代码,找到“区域开始的HTML”和'区域结束的HTML'。如果感觉不好查找,可将代码拷贝到DW中,用“拆分”的方式,很容易就可找到了。
10
得到的区域代码写入规则中。
注意事项
因内容较多,本篇暂时介绍到这,下面继续介绍。