一个大型的资讯网站，频道N多，网站数据也N多，不可能每一条数据都是由网站管理员一条条的来发的！这时候，为了节约人力物力，采集器就诞生了（做优化的朋友，笔者可不推荐你们使用哦）！下面，笔者就用织梦管理系统自带的采集器来采集一个网站的数据给大家演示一下，采集规则是怎么写的！

工具/原料

织梦管理系统

有权限的帐号

步骤一：新建一个文章采集节点

登录织梦管理后台，依次点击

步骤二：填写采集列表规则

节点名称:随便（注意你要能分清哦，因为节点多了的话，有可能会搞得自己混乱）

目标页面编码：看目标页面的编码（比如我采集的网站的编码就是GB2312）

匹配网址：去到采集目标列表页面，查看它的列表规则！比如说很多网站的列表的第一面跟其它内页是有很大的差别的，所以我一般不采集目标列表的第一页！比如说我演示的网站的列表规则是第一页设定一个默认的首页，看不到后面的实际路径的，如图：所以，我们只能从第二页开始（虽然可以找出第一页，但很多的网站是根本没第一页的，所以，这里就不说怎么找第一页了），！我们来对比一下，采集目标页的第二页跟第三页！如图：可以看到，这两页都是有规律的递增的，第二页就是list_2！第三页就是list_3!所以，匹配网址我们就写成上面那个（*）代表的就是列表页面的2，或3，或4，或更多！而第三条横杆那里，我写了个（*）从 2 到 5 ，这里表示的是，把2到5，每次+1的增加，匹配至（*）里面，代替（*）！

区域开始的HTML：在采集目标列表页打开源代码！在要采集的文章标题前面的附近找一段在本页是唯一并且其它要采集的的页面也是唯一的html标签！

区域结束的HTML：在采集目标列表页打开源代码！在要采集的文章标题后面的附近找一段在本页是唯一并且其它要采集的的页面也是唯一的html标签！其它的地方，暂时我们还没用到，可以不管！这样，列表页的规则就写好了！下图是我写好的列表规则截图！写好了，点击保存信息并进入下一步！如果写正确了规则的话，那这些就会出现一个有内容的网址获取规则测试：如下图再按下一步！进入填写采集内容规则

步骤二：填写采集内容规则

文章标题：在文章标题前后找两个标签，能识别出标题的！我采集的网站的文章标题前后唯一标签是

…

，就写成

[内容]

。

文章内容：在文章内容前后找两个标签，能识别出内容的！我采集的网站的文章内容前后唯一标签是

…

[内容]

注意事项

选择列表的唯一标签的时候，一定是要在本页是唯一的，并且，在其它的列表页也是要有个标签，而且也是要唯一的！

选择内容的唯一标签的时候，一定是要在本内容页是唯一的，并且，在其它的内容页也是要有这个标签，而且也是要唯一的！

上一篇：如何用画图软件工具修改图片上的数字

下一篇：流程图绘制中如何创建基本属性值

推荐信息

网站地图 XML TXT RSS 隐私政策服务条款使用条款

欧尼酱

采集规则怎么写

…

[内容]

采集规则怎么写

营养主食---红豆饭的详细做法步骤

红豆饭的做法

WPS论文查重靠谱吗？

word怎么快速删除页眉和页脚

如何使用论文查重软件通过论文定稿

论文排版怎么设置word文档的页码

如何去论文查重？

paperfree免费论文查重检测系统软件免费入口

WPS中Len函数怎么用？

论文检测，毕业论文查重应该怎么办呢？

关于查重的小窍门

学术家论文查重效果怎么样？

在田字格怎么写横折折撇？

怎样选择化妆品

怎么样预防眼角纹

眼部保养用什么护肤品效果好？

advanced signal processing toolkit如何安装

家居装修软件怎么操作？

教你如何使用绘装APP装修记账？

装修效果图软件操作教程