一个大型的资讯网站，频道N多，网站数据也N多，不可能每一条数据都是由网站管理员一条条的来发的！这时候，为了节约人力物力，采集器就诞生了（做优化的朋友，笔者可不推荐你们使用哦）！下面，笔者就用织梦管理系统自带的采集器来采集一个网站的数据给大家演示一下，采集规则是怎么写的！

工具/原料

织梦管理系统

有权限的帐号

步骤一：新建一个文章采集节点

登录织梦管理后台，依次点击

步骤二：填写采集列表规则

节点名称:随便（注意你要能分清哦，因为节点多了的话，有可能会搞得自己混乱）

目标页面编码：看目标页面的编码（比如我采集的网站的编码就是GB2312）

匹配网址：去到采集目标列表页面，查看它的列表规则！比如说很多网站的列表的第一面跟其它内页是有很大的差别的，所以我一般不采集目标列表的第一页！比如说我演示的网站的列表规则是第一页设定一个默认的首页，看不到后面的实际路径的，如图：所以，我们只能从第二页开始（虽然可以找出第一页，但很多的网站是根本没第一页的，所以，这里就不说怎么找第一页了），！我们来对比一下，采集目标页的第二页跟第三页！如图：可以看到，这两页都是有规律的递增的，第二页就是list_2！第三页就是list_3!所以，匹配网址我们就写成上面那个（*）代表的就是列表页面的2，或3，或4，或更多！而第三条横杆那里，我写了个（*）从 2 到 5 ，这里表示的是，把2到5，每次+1的增加，匹配至（*）里面，代替（*）！

区域开始的HTML：在采集目标列表页打开源代码！在要采集的文章标题前面的附近找一段在本页是唯一并且其它要采集的的页面也是唯一的html标签！

区域结束的HTML：在采集目标列表页打开源代码！在要采集的文章标题后面的附近找一段在本页是唯一并且其它要采集的的页面也是唯一的html标签！其它的地方，暂时我们还没用到，可以不管！这样，列表页的规则就写好了！下图是我写好的列表规则截图！写好了，点击保存信息并进入下一步！如果写正确了规则的话，那这些就会出现一个有内容的网址获取规则测试：如下图再按下一步！进入填写采集内容规则

步骤二：填写采集内容规则

文章标题：在文章标题前后找两个标签，能识别出标题的！我采集的网站的文章标题前后唯一标签是

…

，就写成

[内容]

。

文章内容：在文章内容前后找两个标签，能识别出内容的！我采集的网站的文章内容前后唯一标签是

…

[内容]

注意事项

选择列表的唯一标签的时候，一定是要在本页是唯一的，并且，在其它的列表页也是要有个标签，而且也是要唯一的！

选择内容的唯一标签的时候，一定是要在本内容页是唯一的，并且，在其它的内容页也是要有这个标签，而且也是要唯一的！

上一篇：如何用画图软件工具修改图片上的数字

下一篇：流程图绘制中如何创建基本属性值

推荐信息

网站地图 XML TXT RSS 隐私政策服务条款使用条款

欧尼酱

采集规则怎么写

…

[内容]

采集规则怎么写

ip地址和网关地址怎么看

win10如何查看连接的无线网络的默认网关

怎么查看无线网卡ipv6默认网关

168.192.1.1路由器如何设置

如何设置无线路由器的信道以获得最佳WIFI体验？

默认网关怎么填写

internet连接网关

无线网关做WAN有线接入的配置

路由器: IP与网关不在同一段解决方法

酸辣椒麻鸡的做法

金浪KN-S10810安全网关路由器使用说明书:[1]

无线网络总是掉线，显示默认网关不可用怎么办

网关如何设置？？

如何做椒麻鸡

怎么查看IP网关地址

网络连接里多了个internet网关的解决方法

路由器网关升级说明

超美味的椒麻鸡丁，每一口都是满满的幸福！

怎么查看ip地址和网关

路由器如何修改内网lan口网关的ip

欧尼酱

采集规则怎么写

…

[内容]

采集规则怎么写

ip地址和网关地址怎么看

win10如何查看连接的无线网络的默认网关

怎么查看无线网卡ipv6默认网关

168.192.1.1路由器如何设置

如何设置无线路由器的信道以获得最佳WIFI体验？

默认网关怎么填写

internet连接网关

无线网关做WAN有线接入的配置

路由器: IP与网关 不在同一段 解决方法

酸辣椒麻鸡的做法

金浪KN-S10810安全网关路由器使用说明书:[1]

无线网络总是掉线，显示默认网关不可用怎么办

网关如何设置？？

如何做椒麻鸡

怎么查看IP网关地址

网络连接里多了个internet网关的解决方法

路由器网关升级说明

超美味的椒麻鸡丁，每一口都是满满的幸福！

怎么查看ip地址和网关

路由器如何修改内网lan口网关的ip

路由器: IP与网关不在同一段解决方法