如何在爬虫中使用正则表达式获取相关内容

在我们写爬虫之中，都是通过对源代码的查询来获取网页html中的具体的我们所需要的信息，我们在这种信息筛选的过程中，都会用到正则表达式，那么我们应该如何通过灵活的运用正则表达式来完成我们筛选我们需要的信息这样的操作呢？接下来就有我给大家介绍和演示一下如何使用正则表达式来获取我们需要的网页内的相关内容吧。

工具/原料

完整的爬虫的爬html代码

对正则表达式的初步了解

方法/步骤

比如我们需要爬虫一个招聘网站上的相关招聘信息，来用作我们之后的处理和操作的话，我们需要先右键当前网页，来查看我们的网页源代码。可以看见，下图就是我们网页源代码的一部分。

然后我们需要翻阅源代码，来看到我们需要爬虫的相关内容，我们可以看到，我们需要的相关内容全部被

....

标签所包围，因此我们初步采用的正则表达式肯定就是包含有p标签的筛选。

接下来我们使用java爬虫的方式来测试一下我们爬出来的结果，当然python爬虫也是一样的，我们写上我们需要的正则之后，就可以爬出我们相应的结果了，可以看到，其中的内容要比我们想要的内容多，我们只需要

这样的标签之后加上1.这样子的格式的就行了，因此我们需要更改我们的正则表达式。

[0-9][.]{1}.*?

这个就是我们最终选用的正则表达式，这个用来匹配我们的1. 2. 3. 这样子格式的文件，可以看到匹配结果很令人满意，它成功的筛选了所有我们的需要的内容。

最后一步，我们就是要去掉这个两边的

...

符号，使其变为一个纯文本文件。我们使用的正则表达式为<[/]{0,1}p>这样就可以完美的去掉

...

是不是很简单呢？

注意事项

正则表达式的基础内容需要掌握

对于特殊的情况比如css样式固定要注意观察和分离这样才能写出好的爬虫

上一篇：Python爬虫中的中文网址转译

下一篇：RestSharp爬虫辅助轻松发起含cookie的http请求

欧尼酱

如何在爬虫中使用正则表达式获取相关内容

小米路由器如何更改无线网络名称

如何使用连续取样进行PS抠图？

如何在Word中制作连续块状流程图？

excel2016如何创建SmartArt连续图片列表

excel2010中如何制作一个连续图片列表

word连续分节符如何设置

word分节后如何设置连续页码

在word文档中如何设置可以使页码连续

PPT演示文档如何插入连续图片列表

房产证没下来的房子如何买卖

一梯四户高层住宅如何挑选户型

如何选择旅行背包？旅行背包选购的小常识

登山包，户外双肩包的织带断裂我们如何补救？

如何挑选骆驼户外背包

如何挑选一款户外骑行包

如何更好地把握校园招聘季，拿到满意的offer？

老毛桃winpe如何加载注册表编辑器

如何使用cmd命令连续检查指定地址的连通性？

Excel如何制作雷达图

如何查看TCP和UDP的连接方式

如何根治高血糖

索尼Lt26i解锁BL

3D电视的常见问题

明矾净水的作用

高血脂患者的降血脂妙招

如何选购3D电视及如何避免误区

超纯水设备EDI模块堵塞的原因总结

如何选购液晶电视选购

快速降低总磷，污水总磷处理需要哪些药剂？

如何用积木拼装女孩提水桶浇花的场景

水是怎样在人体内流动

4K电视过分清晰会不会不够真实？

胶体电池如何保养？

积木场景搭建之国王的荣耀

书耽耽美小说如何统一查看相关的信息

光触媒除甲醛是什么原理？怎么分辨光触媒？

《孤岛惊魂3》不用修改器获得无限生命子弹方法

屏幕刷新率在哪里看

沙漠中的流沙是怎样形成的

《我的世界》评测：“沙盘”巅峰大作