爬虫wwwhj8828comI8669I44445Scrapy入门教程

网络爬虫框架 Scrapy 入门教程

工具/原料

Scrapy 项目的核心配置文件

User Agent

方法/步骤

首先，确定你的电脑上已经安装了 Python 3 以及对应的 pip。可以使用下面的命令查看：

如果没有安装的话，推荐使 Homebrew 这个工具来进行安装。pip 是 Python 的一个包管理工具，类似于 npm，可以在线安装、卸载所有的第三方 Python 模块，并自动处理依赖关系。这里我们使用下面的命令来安装 Scrapy 模块：

教程：一个抓取豆瓣电影 Top 250 的爬虫首先，我们使用下面的命令来创建并初始化 Scrapy 项目：

这样便会在当前目录下创建一个 doubanmovie 的爬虫项目，其内部结构如下：

其中：scrapy.cfg 为 Scrapy 项目的核心配置文件items.py 用于定义爬虫程序爬取到的数据实体的属性结构piplines.py 用于定义爬虫程序每次爬取到的数据实体进行后续处理的操作流程，比如写入文件系统或数据库settings.py 为爬虫程序的配置文件，可以在这里定义多个 pipline 和 middlewarespiders 文件夹中存放爬虫文件接着，我们需要在 items.py 文件中定义电影实体的属性结构：

然后，我们使用下面的命令来创建一个名为 doubanspider 的爬虫程序：

运行之后会在 spiders 目录下生成一个名为 moviespider.py 的爬虫文件，内部定义了爬虫的名称、作用域及起始 URL 等基本信息，以及一个解析函数，该函数的主要功能便是通过 XPath 分析页面中的 HTML 元素，并将解析结果输出：

通过爬虫解析后的实体数据，会通过一种 Pipeline 的过程将结果进行打印输出、存入文件或数据库等：

由于豆瓣电影的网站设置了防爬虫技术，所以在完成上述步骤后运行爬虫会出现 403 的 HTTP 状态码。于是我们需要在发送的请求中加入 User Agent 信息来伪装成一个浏览器：

最后，我们将上述修改写入配置文件：

运行 scrapy crawl moviespider 命令，便会在控制台中输出爬取到的数据。

注意事项

如果没有安装的话，推荐使 Homebrew 这个工具来进行安装。

豆瓣电影 Top 250 的爬虫

上一篇：python如何实现简单爬虫

下一篇：如何评测爬虫代理哪家强

欧尼酱

爬虫wwwhj8828comI8669I44445Scrapy入门教程

使用Python3和Scrapy进行网站图片爬虫自动下载

python爬虫入门教程

怎么剪创意小爬虫的画法简单儿童手工剪纸小虫儿

python爬虫的工作步骤

爬虫教学基础篇

Java 简单网络爬虫

网络爬虫类型

最好养的爬虫宠物

python简单爬虫

node.js 爬虫-Puppeteer 包的使用

Python爬虫之文件下载

python如何实现简单爬虫

爬虫wwwhj8828comI8669I44445Scrapy入门教程

如何评测爬虫代理哪家强

怎么用神箭手编写基于JS的爬虫？

如何学习Python网络爬虫？

从零开始的Python爬虫速成指南

爬虫如何防止数据重复爬取

Python 爬虫建站入门手记（1）：环境搭建

Python爬虫--正则表达式

科目一考试有哪些注意事项？

驾校不退学车钱这样违法吗

夏日口干舌燥、心烦意乱如何食疗

酒水不可乱混搭，小心混出大病！

如何整理乱乱的衣柜

逆乱苍天正式版攻略开局怎么玩怎么装备

逆乱苍天正式版1.0.0攻略前期攻略

科目一考试注意事项

逆乱苍天1.0正式版攻略,新手攻略前期开局怎么玩

逆乱苍天正式版攻略开局任务怎么做

科目一视频要看多久才可以签退

别放过机遇－乱棍打死牛魔王

2014科目一考试的技巧？

驾照科目一考试满分技巧

深切认知罐头企业的另一面千万不要乱投一气啊！

虚拟网络里的情感

男友/老公爱吃醋怎么办

生化危机4怎么乱入人物威斯克

如何通过C1驾驶证科目一考试？

心烦意乱怎么办