多语言展示
当前在线:653今日阅读:23今日分享:25

python直pyspider入门

PySpider:一个国人编写的强大的网络爬虫系统并带有强大的WebUI。采用Python语言编写,分布式架构,支持多种数据库后端,强大的WebUI支持脚本编辑器,任务监视器,项目管理器以及结果查看器。
工具/原料
1

python3

2

pyspider

方法/步骤
1

WebUI 界面

2

入门demo,具体介绍见下图from pyspider.libs.base_handler import *  class Handler(BaseHandler):    crawl_config = {    }    @every(minutes=24 * 60)    def on_start(self):        self.crawl('http://scrapy.org/', callback=self.index_page)    @config(age=10 * 24 * 60 * 60)    def index_page(self, response):        for each in response.doc('a[href^='http']').items():            self.crawl(each.attr.href, callback=self.detail_page)    def detail_page(self, response):        return {            'url': response.url,               'title': response.doc('title').text(),        }

3

开始运行1.保存你的脚本2.回到仪表板找到你的项目。3.改变status为DEBUG。4.点击run按钮。

推荐信息