怎样用python的beautifulsoup抓取多页数据

利用python抓取多页数据有多种方法，以下介绍一下本人常用的一种方法，供参考。

工具/原料

python环境

PyCharm (非必须）

方法/步骤

网站的页面地址一般都有特定的规律，首先需要找到其中的规律。例如想要抓取的网址格式为： http://www.abcde.com/a/?pageNum=1#Query http://www.abcde.com/a/?pageNum=2#Query http://www.abcde.com/a/?pageNum=3#Query ......

通过分析以上网址，我们可以发现，pageNum的数字就代表着第几页；

找到网址规律后，我们只需简单的用占位符的功能，即可轻松实现多个页面地址的抓取。格式如下：url = 'http://www.abcde.com/a/?pageNum={page}#Query'.format(page=i)

然后用for循环，实现所有地址的遍历。也可以增加一个列表，将所有地址直接插入列表中，抓取时直接调用。以下为代码： urllist = [] for i in range(1, 100) url = 'http://www.abcde.com/a/?pageNum={page}#Query'.format(page=i) urllist.append(url)

网页地址全部获取后，即可根据自己的需求，通过Requests等抓取网页，通过BeautifulSoup等抽取自己想要的数据。

上一篇：ArcGIS Service矢量地图服务数据抓取方法

下一篇：Web scrape插件如何抓取多页的数据

欧尼酱

怎样用python的beautifulsoup抓取多页数据

佳能EOS 60D怎样连接电脑拍照

怎样正确选择喷码机耗材

怎样用单反拍出诱人的美食

怎样给激光打印机更换碳粉盒

怎样挑选金毛犬？

怎样挑选好的金毛狗狗

怎样识别纯种金毛犬

怎样看待考生作弊事件

.net怎样快速实现网页数据抓取(爬虫功能)

怎样使用 fiddler抓取网络数据包?