做数据分析经常从网页获取数据,如果你做文本挖掘,你就经常用到正则表达式来匹配中文,这是个非常麻烦的事情,网页的编码不同,你还需要进行解码,今天我就遇到了一个这样的问题,我把这个过程中的经验分享给大家,希望对大家有用。假如我们使用getpage函数获得网页文件f我们知道网页文件的编码方式是utf-8,所以先使用decode进行解码。假如你不知道网页的编码方式,你可以看我以前的文章【如何知道网页编码方式】写好你的正则表达式,我们看到我的正则表达式包含中文,如果直接跟网页文件进行匹配,则无法匹配,我们只是对这个正则表达式进行解码因为我们知道python对中文的编码是gbk,所以我们使用gbk进行解码好了,前期工作准备好以后,我们就可以进行正则表达式的匹配了。