scrapy入门教程

Scrapy 是一个为了爬取网站数据，提取结构性数据而编写的应用框架。可以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。

工具/原料

Scrapy

Python

方法/步骤

安装Scrapy推荐使用anaconda，anaconda里面集成了很多关于python科学计算的第三方库，安装非常方便。使用pip安装# pip install Scrapy

创建项目创建一个新的Scrapy项目，运行下列命令# scrapy startproject tutorial

该命令将会创建包含下列内容的 tutorial 目录:这些文件分别是:scrapy.cfg: 项目的配置文件tutorial/: 该项目的python模块。之后您将在此加入代码。tutorial/items.py: 项目中的item文件.tutorial/pipelines.py: 项目中的pipelines文件.tutorial/settings.py: 项目的设置文件.tutorial/spiders/: 放置spider代码的目录.

定义ItemItem 是保存爬取到的数据的容器；其使用方法和python字典类似，并且提供了额外保护机制来避免拼写错误导致的未定义字段错误。首先根据需要从dmoz.org获取到的数据对item进行建模。我们需要从dmoz中获取名字，url，以及网站的描述。对此，在item中定义相应的字段。编辑 tutorial 目录中的 items.py 文件:import scrapyclass DmozItem(scrapy.Item): title = scrapy.Field() link = scrapy.Field() desc = scrapy.Field()

编写第一个爬虫(Spider)Spider是用户编写用于从单个网站(或者一些网站)爬取数据的类。其包含了一个用于下载的初始URL，如何跟进网页中的链接以及如何分析页面中的内容，提取生成item 的方法。为了创建一个Spider，必须继承 scrapy.Spider 类，且定义以下三个属性:name: 用于区别Spider。该名字必须是唯一的，您不可以为不同的Spider设定相同的名字。start_urls: 包含了Spider在启动时进行爬取的url列表。因此，第一个被获取到的页面将是其中之一。后续的URL则从初始的URL获取到的数据中提取。parse() 是spider的一个方法。被调用时，每个初始URL完成下载后生成的 Response 对象将会作为唯一的参数传递给该函数。该方法负责解析返回的数据(response data)，提取数据(生成item)以及生成需要进一步处理的URL的 Request 对象。以下为我们的第一个Spider代码，保存在 tutorial/spiders 目录下的 dmoz_spider.py 文件中:import scrapyclass DmozSpider(scrapy.Spider): name = 'dmoz' allowed_domains = ['dmoz.org'] start_urls = [ 'http://www.dmoz.org/Computers/Programming/Languages/Python/Books/', 'http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/' ] def parse(self, response): filename = response.url.split('/')[-2] with open(filename, 'wb') as f: f.write(response.body)

爬取进入项目的根目录，执行下列命令启动spider :scrapy crawl dmoz

上一篇：“岚”基础教程

下一篇：CS3 PS初级教程

欧尼酱

scrapy入门教程

scrapy入门教程

三星s8 打开usb调试教程

三星note8性能如何

三星怎么分辨美版和国行？

三星s8黑域使用教程

三星s8如何打开跑马灯？

三星S8 怎么安装绝地求生

三星s8怎么查产地

三星s8 组装机如何辨别

三星s8如何设置更流畅

三星s8 nfc设置

三星s8省电技巧

三星S8怎么格式化？

三星S8玩王者荣耀卡吗？三星S8玩游戏卡不卡

LG V30对决三星S8 谁是最强全面屏旗舰？

三星s8 港版怎么开启volte

三星2018版GALAXY A8+评测

关于三星s8及s8plus

三星s8使用技巧

三星s8黑科技使用技巧

三星s8 nfc设置