多语言展示
当前在线:204今日阅读:168今日分享:49

如何在爬虫中使用正则表达式获取相关内容

在我们写爬虫之中,都是通过对源代码的查询来获取网页html中的具体的我们所需要的信息,我们在这种信息筛选的过程中,都会用到正则表达式,那么我们应该如何通过灵活的运用正则表达式来完成我们筛选我们需要的信息这样的操作呢?接下来就有我给大家介绍和演示一下如何使用正则表达式来获取我们需要的网页内的相关内容吧。
工具/原料
1

完整的爬虫的爬html代码

2

对正则表达式的初步了解

方法/步骤
1

比如我们需要爬虫一个招聘网站上的相关招聘信息,来用作我们之后的处理和操作的话,我们需要先右键当前网页,来查看我们的网页源代码。可以看见,下图就是我们网页源代码的一部分。

2

然后我们需要翻阅源代码,来看到我们需要爬虫的相关内容,我们可以看到,我们需要的相关内容全部被

....

标签所包围,因此我们初步采用的正则表达式肯定就是包含有p标签的筛选。

4

接下来我们使用java爬虫的方式来测试一下我们爬出来的结果,当然python爬虫也是一样的,我们写上我们需要的正则之后,就可以爬出我们相应的结果了,可以看到,其中的内容要比我们想要的内容多,我们只需要

这样的标签之后加上1.这样子的格式的就行了,因此我们需要更改我们的正则表达式。

5

[0-9][.]{1}.*?

这个就是我们最终选用的正则表达式,这个用来匹配我们的1. 2. 3. 这样子格式的文件,可以看到匹配结果很令人满意,它成功的筛选了所有我们的需要的内容。

6

最后一步,我们就是要去掉这个两边的

...

符号,使其变为一个纯文本文件。我们使用的正则表达式为<[/]{0,1}p>这样就可以完美的去掉

...

是不是很简单呢?

注意事项
1

正则表达式的基础内容需要掌握

2

对于特殊的情况 比如css样式固定 要注意观察和分离 这样才能写出好的爬虫

推荐信息