多语言展示
当前在线:1211今日阅读:176今日分享:34

如何使用python的urllib包抓取并保存网页

python是个很有趣的语言,可以在cmd命令窗口运行,还有很多的功能强大的模块。这篇经验告诉你如何利用python的urllib包的request模块抓取并保存网页。
工具/原料
1

windows系统电脑一台

2

python软件

方法/步骤
1

第一,打开cmd命令窗口,并输入python,进入python软件命令窗口。

2

第二,引入urllib包中的request模块,引入os模块。urllib是一个包,其中的request是一个模块,这个模块包含了对服务器的发出、跳转、代理和安全等方面。

4

第四,使用urllib.request的urlopen()函数访问网页,并设置编码格式为'utf8',注意此处每一个网站的格式编码不同,要根据网站的编码格式,来设置编码格式。

5

第五,使用函数len()获取网页文档的字符串长度,并打印出前300个字符。

6

第六,使用函数open打开当前工作目录下的001.txt,并写入模式。

7

第七,使用一个循环语句,将要网页的内容写入001.txt,这主要使用了file对象的write()方法。写入完成后,关闭文档,打开文档001.txt查看内容。

注意事项

输入循环语句时,一定要注意空格的数量,否则程序不会编译执行。

推荐信息