织梦管理系统
有权限的帐号
登录织梦管理后台,依次点击
节点名称:随便(注意你要能分清哦,因为节点多了的话,有可能会搞得自己混乱)
目标页面编码:看目标页面的编码(比如我采集的网站的编码就是GB2312)
匹配网址:去到采集目标列表页面,查看它的列表规则!比如说很多网站的列表的第一面跟其它内页是有很大的差别的,所以我一般不采集目标列表的第一页!比如说我演示的网站的列表规则是第一页设定一个默认的首页,看不到后面的实际路径的,如图: 所以,我们只能从第二页开始(虽然可以找出第一页,但很多的网站是根本没第一页的,所以,这里就不说怎么找第一页了),!我们来对比一下,采集目标页的第二页跟第三页!如图: 可以看到,这两页都是有规律的递增的,第二页就是list_2!第三页就是list_3!所以,匹配网址我们就写成上面那个(*)代表的就是列表页面的2,或3,或4,或更多!而第三条横杆那里,我写了个(*)从 2 到 5 ,这里表示的是,把2到5,每次+1的增加,匹配至(*)里面,代替(*)!
区域开始的HTML:在采集目标列表页打开源代码!在要采集的文章标题前面的附近找一段在本页是唯一并且其它要采集的的页面也是唯一的html标签!
区域结束的HTML:在采集目标列表页打开源代码!在要采集的文章标题后面的附近找一段在本页是唯一并且其它要采集的的页面也是唯一的html标签!其它的地方,暂时我们还没用到,可以不管!这样,列表页的规则就写好了!下图是我写好的列表规则截图! 写好了,点击保存信息并进入下一步!如果写正确了规则的话,那这些就会出现一个有内容的网址获取规则测试:如下图再按下一步!进入填写采集内容规则
文章标题:在文章标题前后找两个标签,能识别出标题的!我采集的网站的文章标题前后唯一标签是
…
,就写成[内容]
。文章内容:在文章内容前后找两个标签,能识别出内容的!我采集的网站的文章内容前后唯一标签是
- ,所以就写成
- !其它的功能,也不用管!这里只分享怎么能采到文章!然后,点击保存配置并预览,如果前面的列表规则跟内容规则都写对了的话,那现在就会预览到内容了!点击仅保存,如果你要马上采集的话,也可以点击隔壁的保存并马上采集!
选择列表的唯一标签的时候,一定是要在本页是唯一的,并且,在其它的列表页也是要有个标签,而且也是要唯一的!
选择内容的唯一标签的时候,一定是要在本内容页是唯一的,并且,在其它的内容页也是要有这个标签,而且也是要唯一的!
- 1
采集规则怎么写
- 2
cad怎么画三维图立体图
- 3
怎样判别B类翡翠
- 4
什么是翡翠B货?翡翠B货是怎么制成的?
- 5
瓜豆原理例题及解析是什么
- 6
翡翠A货的正确理解意思
- 7
【翡翠常识】- 怎么判断翡翠是否是A货?
- 8
如何鉴别市场上玉器A、B、C、D四类货?
- 9
翡翠挂件A货B货怎么鉴定
- 10
教你简单鉴别B货C货翡翠的四个方法
- 11
肉眼识别翡翠A货翡翠B货翡翠C货翡翠D货
- 12
怎样鉴别翡翠是A货、B货、C货还是D货
- 13
翡翠A货、B货、C货如何鉴别
- 14
翡翠收藏:翡翠A,B,C货的分辨
- 15
怎么分辨什么是缅甸翡翠的ABC货
- 16
什么是翡翠的B货?
- 17
肉眼怎么分辨翡翠ABC货
- 18
翡翠怎么鉴别abc货
- 19
简单实用辨别翡翠ABC货
- 20
运动鞋怎么推广文案
- 21
女孩穿蓝色套装九分裤怎么搭鞋
