多语言展示
当前在线:1219今日阅读:27今日分享:41

C#版爬虫工具 NSoup使用 像JQuery一样操作字符

爬虫通常是伪造一个http请求,然后收到返回的html代码字符串,然后从中解析出需要的数据。那么,在返回的html中,要如何才能更方便的筛选出需要的信息呢?作为.NET、C#中的一款优秀工具NSoup,就可以把html字符串当做页面,像JQuery一样的通过ID、class、标签等等过滤数据
方法/步骤
1

创建ASP.NET MVC项目作为演示NSoup如何像JQuery一样操作html字符串。此处不再详述如何创建MVC项目,参见下面的链接

2

在刚创建的项目MVCNSoup上面,点击鼠标右键,选择【管理 NuGet 程序包】,在弹出的界面点击【浏览】-> 输入【NSoup】-> 选择第一个,然后点击右侧的【安装】,就可以将NSoup添加到项目中来

3

在HomeController的Index方法中,添加一段Html字符串,用于模拟爬取到的网页内容

4

在HomeController中添加对NSoup的引用,然后在Index方法中添加通过指定ID获取标签值的代码(GetElementById)

5

在VS中设置断点,按F5调试模式运行,可以看到已经按照预期的从html字符串中获取到了标签的值

6

获取指定标签的所有节点 使用 GetElementsByTag,在调试模式下执行效果如图所示

7

通过CSS查询过滤器的格式获取标签值,调试运行效果如下

推荐信息