python采集数据,主要根据自己的需求,使用正则表达式设定规则,采集自己需求的数据。本文使用的是re和urllib模块,讲解代码逻辑。
工具/原料
1
CentOS(linux系统)
2
python
方法/步骤
1
引入正则和采集库:import re //正则模块import urllib //urllib 模块提供了读取web页面数据的接口
2
先根据url 获取,对应的页面数据:定义函数getHtml().def getHtml(url): page = urllib.urlopen(url) //打开链接 html = page.read() //读取页面数据 return html
3
然后各根据获取图片路径的需求设定正则表达式:定义函数getImg(html).代码如图:
注意事项
某些网站防采集