多语言展示
当前在线:801今日阅读:23今日分享:25

scarpy十分钟入门

1、主要是四个文件:spider文件夹下自定义文件,定义抓取规则及逻辑,item处理等items.py定义抓取数据的类的成员pipelines.py定义对item的数据处理等,如存进数据库setting文件,项目的相关定义2、spider下的自定义文件中,继承basespider类,实现parse方法:如根据入口,生成不同的对单个页面的请求及处理,并指定回调3、pipeline中,实现的每个pipe,必需实现process_item,可自选实现open_spider、close_spider。并在setting中指明要用的pipe。最好写个pipe记录之前已经爬虫的url。
推荐信息