Python爬虫之文件下载

之前介绍了怎样用Python去爬网页，可通过下面的链接打开《Python爬虫之与Cookies与Session同行》。在那篇文章中主要讲了怎么爬取网页中的文字内容。而今天我们要说的内容是：如果在网页中存在文件资源，如：图片，电影，文档等。怎样通过Python爬虫把这些资源下载下来。3Python爬虫之与Cookies与Session同行

方法/步骤

资源下载方法一：代码很简单，直接上代码：from urllib.request import urlretrieveurlretrieve('图片URL', './image.jpg')直接通过urlretrieve函数就把URL对应的图片给下载到当前文件夹（./）中了，并把图片命名为image.jpg。

资源下载方法二：还是直接看代码：import requestsresource = requests.get('图片URL')with open('./image.jpg', mode='wb') as fh: fh.write(resource.content)此下载方法要安装python的requests库。从功能上来说与下载方法一是一样的。python库的安装方法用pip就好。很简单，这里都不啰嗦了。

资源下载方法三：看代码：import requestsresource = requests.get('图片URL', stream=True)with open('./image.jpg', mode='wb') as fh: for chunk in resource.iter_content(chunk_size=100): fh.write(chunk)此方法与下载方法二的不同之处在于在get方法调用时使用了参数【stream=True】。而在写入的文件的时候是分块写入的。什么意思呢：前两种方法是把一个文件全部下载到内存后，再一起写入到硬盘文件中。方法三是下载一定的量（这里指的是100字节）后，就写入到硬盘文件中，直到全部写完。第三种方法的好处是，如果在下载大容量文件时，不会造成内存的过度使用。

资源下载说明一：上述的代码都是通过下载图片资源为例子的，但所有其它资源，如文档，电影等的下载方式是一样的。关键是要正确的识别出网页中资源所对应的URL地址才能够正确的下载（因为有些资源是用的相对路径或加密后的路径）。

资源下载说明二：上面例子中的代码都是下载单一资源的。如果要在同一网页中下载多个资源的思路如下：1. 找出要下载资源的URL，并形成一个资源集合；2. 把下载函数中的资源URL与保存路径参数化；3. 遍历资源集合，依靠循环调用下载函数来达到多个资源下载的目的。

上一篇：node.js 爬虫-Puppeteer 包的使用

下一篇：python如何实现简单爬虫

欧尼酱

Python爬虫之文件下载

怎么用python爬取网站Jpg图片

使用Python3和Scrapy进行网站图片爬虫自动下载

python爬虫入门教程

python爬虫的工作步骤

python如何下载图片

Scrapy入门教程

通过python下载一张图片到本地目录

python简单爬虫

Python爬虫之文件下载

python如何实现简单爬虫

爬虫wwwhj8828comI8669I44445Scrapy入门教程

如何学习Python网络爬虫？

从零开始的Python爬虫速成指南

Python 爬虫建站入门手记（1）：环境搭建

Python爬虫--正则表达式

Python 爬虫：6 个常用的爬虫技巧总结！

新手如何用Python编写自己的第一条爬虫

Python 简易爬虫开发教程

如何利用python网络爬虫技术获取网站状态和信息

英雄联盟新版刀妹符文加点

LOLs8赛季上单刀妹天赋如何加点

LOL刀妹出装打法和天赋符文

刀妹怎么玩才能Carry

LOLs8赛季上单刀妹天赋如何加点

英雄联盟8.7版本刀锋舞者刀妹上单攻略

LOL刀妹出装攻略

LOL6.11版本刀妹如何出装加点

英雄联盟lol刀锋意志刀妹出装|lol上单刀妹出装

英雄联盟LOLS4赛季刀锋意志刀妹上单技能加点

LOL刀妹重做后最新天赋搭配及出装推荐。

云顶之弈s6.5名流刀妹阵容搭配攻略

英雄联盟: 新版刀妹出装推荐

英雄联盟中刀妹的技能细节与理解

《英雄联盟》中单刀妹出门装怎么选？

刀妹装备选择与技巧

s4刀妹天赋加点图

lol如何玩好新版刀妹

刀妹怎么E最快

刀妹艾瑞莉娅符文出装攻略