一台能上网的电脑
Python
python爬虫,首先需要本地电脑上安装有python,这里我简单说一下python的安装,我相信学爬虫的同学们肯定有一定的python基础了。
跳转出python下载界面,选择一个版本进行下载,这里的我3.X和2.7.X版本的差别还是蛮大的,这里我就不在累赘了,python2.7的支持包要更加全面完善,python3的包扩展可能比较少,但是正在慢慢开发;python2.7预计在202X停止更新了;但是由于小编的习惯,这里我选择的是2.7版本。
下载好后,点击安装包,依据提示点击下一步即可,这里相信大家没有任何的问题。
安装好后,按windos键加R键,弹出运行窗口,在运行窗口输入cms进入到命令行界面,然后输入python,如果安装成功,即可进入到python交互界面,如果没有则表示python没有安装成功。
爬虫主要分为两个部分,第一个是网页界面的获取,第二个是网页界面的解析;爬虫的原理是利用代码模拟浏览器访问网站,与浏览器不同的是,爬虫获取到的是网页的源代码,没有了浏览器的翻译效果。
首先,我们进行页面获取,python爬虫的话很多模块包提供给开发者直接抓取网页,urllib,urllib2,requests(urllib3)等等,这里我们使用urllib2进行网站页面的获取;首先导入urllib2模块包(该包是默认安装的):import urllib2
导入模块包之后,然后调用urllib2中的urlopen方法链接网站,代码如下repr = urllib2.urlopen('XXXXXX'),XXXXXX代表的是网站名称。
得到网站的响应之后,然后就是将页面的源代码读取出来,调用read方法,html = repr.read()
获取到页面的源代码之后,然后接下来的工作就是将自己想要的数据从html界面源代码中解析出来,解析界面的模块包有很多,原始的re,好用的BeautifulSoup,以及高大上的lxml等等,这里我就简单的用re介绍介绍,首先导入re模块包:import re
然后进行利用re进行搜索,这里我有使用正则表达式,看不懂的同学需去补充点正则表达式方面的知识。
源代码:import urllib2repr = urllib2.urlopen('URL')html = repr.read()import re省略一行代码print url
爬虫是一个比较深入的领域,这里的我只是讲解了非常非常简单的东西,如果有需要的可以和我深入讨论
希望大家喜欢,多多投票,多多支持