python爬虫入门教程

爬虫是一个是一个好玩的技术，偷偷爬取mm的照片，爬取知乎用户头像等等，这些教程经验帖在网上随便一搜，到处都是；那么今天小编将给大家简单讲讲python爬虫的入门。鉴于经验排版模式有限，所以这里只能简单的介绍，如有详情可以私下交流。

工具/原料

一台能上网的电脑

Python

步骤一：python的下载

python爬虫，首先需要本地电脑上安装有python，这里我简单说一下python的安装，我相信学爬虫的同学们肯定有一定的python基础了。

跳转出python下载界面，选择一个版本进行下载，这里的我3.X和2.7.X版本的差别还是蛮大的，这里我就不在累赘了，python2.7的支持包要更加全面完善，python3的包扩展可能比较少，但是正在慢慢开发；python2.7预计在202X停止更新了；但是由于小编的习惯，这里我选择的是2.7版本。

下载好后，点击安装包，依据提示点击下一步即可，这里相信大家没有任何的问题。

安装好后，按windos键加R键，弹出运行窗口，在运行窗口输入cms进入到命令行界面，然后输入python，如果安装成功，即可进入到python交互界面，如果没有则表示python没有安装成功。

步骤二：爬虫准备

步骤三：开始爬虫

爬虫主要分为两个部分，第一个是网页界面的获取，第二个是网页界面的解析；爬虫的原理是利用代码模拟浏览器访问网站，与浏览器不同的是，爬虫获取到的是网页的源代码，没有了浏览器的翻译效果。

首先，我们进行页面获取，python爬虫的话很多模块包提供给开发者直接抓取网页，urllib，urllib2，requests（urllib3）等等，这里我们使用urllib2进行网站页面的获取；首先导入urllib2模块包（该包是默认安装的）：import urllib2

导入模块包之后，然后调用urllib2中的urlopen方法链接网站，代码如下repr = urllib2.urlopen('XXXXXX'),XXXXXX代表的是网站名称。

得到网站的响应之后，然后就是将页面的源代码读取出来，调用read方法，html = repr.read()

获取到页面的源代码之后，然后接下来的工作就是将自己想要的数据从html界面源代码中解析出来，解析界面的模块包有很多，原始的re，好用的BeautifulSoup，以及高大上的lxml等等，这里我就简单的用re介绍介绍，首先导入re模块包：import re

然后进行利用re进行搜索，这里我有使用正则表达式，看不懂的同学需去补充点正则表达式方面的知识。

源代码：import urllib2repr = urllib2.urlopen('URL')html = repr.read()import re省略一行代码print url

注意事项

爬虫是一个比较深入的领域，这里的我只是讲解了非常非常简单的东西，如果有需要的可以和我深入讨论

希望大家喜欢，多多投票，多多支持

上一篇：使用Python3和Scrapy进行网站图片爬虫自动下载

下一篇：怎么剪创意小爬虫的画法简单儿童手工剪纸小虫儿

欧尼酱

python爬虫入门教程

怎么用python爬取网站Jpg图片

使用Python3和Scrapy进行网站图片爬虫自动下载

python爬虫入门教程

python爬虫的工作步骤

python如何下载图片

Scrapy入门教程

通过python下载一张图片到本地目录

python简单爬虫

Python爬虫之文件下载

python如何实现简单爬虫

爬虫wwwhj8828comI8669I44445Scrapy入门教程

如何学习Python网络爬虫？

从零开始的Python爬虫速成指南

Python 爬虫建站入门手记（1）：环境搭建

方舟指令洛天依

Mathematica基础——三重积分

如何用代数式表示sin18°

300大作战洛天依召唤师技能与出装攻略

Mathematica应用——微分几何初步

【微分几何】圆环面与平面的截线

正弦函数y=2sin(2x+π/10)的周期单调等性质

棋战三国、海绵宝宝、洛克王国招商优惠条件

cos六分之派等于多少

如何用洛天依的音源做歌曲pv

海绵宝宝吹泡泡小游戏怎么玩

如何给起点读书COS大赛作品投票

cos热血次元怎么领取探索奖励

如何求积分？

苍之纪元如何获得洛天依

海绵宝宝可爱战斗机小游戏怎么玩？

海绵宝宝雪球战小游戏怎么玩？

Mathematica基础——引进限制条件进行化简

超轻粘土洛天依教程

洛天依简笔画