Python教程：[38]正则表达式匹配中文

做数据分析经常从网页获取数据，如果你做文本挖掘，你就经常用到正则表达式来匹配中文，这是个非常麻烦的事情，网页的编码不同，你还需要进行解码，今天我就遇到了一个这样的问题，我把这个过程中的经验分享给大家，希望对大家有用。假如我们使用getpage函数获得网页文件f我们知道网页文件的编码方式是utf-8，所以先使用decode进行解码。假如你不知道网页的编码方式，你可以看我以前的文章【如何知道网页编码方式】写好你的正则表达式，我们看到我的正则表达式包含中文，如果直接跟网页文件进行匹配，则无法匹配，我们只是对这个正则表达式进行解码因为我们知道python对中文的编码是gbk，所以我们使用gbk进行解码好了，前期工作准备好以后，我们就可以进行正则表达式的匹配了。