多语言展示
当前在线:1810今日阅读:27今日分享:41

怎样用python的beautifulsoup抓取多页数据

利用python抓取多页数据有多种方法,以下介绍一下本人常用的一种方法,供参考。
工具/原料
1

python环境

2

PyCharm (非必须)

方法/步骤
1

网站的页面地址一般都有特定的规律,首先需要找到其中的规律。例如想要抓取的网址格式为: http://www.abcde.com/a/?pageNum=1#Query http://www.abcde.com/a/?pageNum=2#Query http://www.abcde.com/a/?pageNum=3#Query ......

2

通过分析以上网址,我们可以发现,pageNum的数字就代表着第几页;

3

找到网址规律后,我们只需简单的用占位符的功能,即可轻松实现多个页面地址的抓取。格式如下:url = 'http://www.abcde.com/a/?pageNum={page}#Query'.format(page=i)

4

然后用for循环,实现所有地址的遍历。也可以增加一个列表,将所有地址直接插入列表中,抓取时直接调用。以下为代码:  urllist = [] for i in range(1, 100)     url = 'http://www.abcde.com/a/?pageNum={page}#Query'.format(page=i)       urllist.append(url)

5

网页地址全部获取后,即可根据自己的需求,通过Requests等抓取网页,通过BeautifulSoup等抽取自己想要的数据。

推荐信息