jsoup是一个很强大的爬虫框架,当然也是很强大的html和xml解析器。xml文档是一种非常常见的文档,比如支付结果回调:微信和支付宝返回的都是xml,这里将分享怎么用jsoup解析xml文档
工具/原料
1
eclipse/idea
2
jsoup
方法/步骤
1
第一步:同html一样,xml也需要一个文档,这里就新建一个xml文档进行解析,代码如下: xx
2
第二步:把xml文档加载到程序中,这里注意文件的路径不要错了,代码如下:Document dom = Jsoup.parse(new File("C:/Users/admin/Desktop/a.xml"), "UTF-8");
3
第三步:xml文档加载后,可以看到返回的就是一个Document对象,所有就可以使用Document方法了,获取text,代码如下:Document dom = Jsoup.parse(new File("C:/Users/admin/Desktop/a.xml"), "UTF-8"); String s = dom.select("b").text(); System.out.println(s);
4
第四步:还可以获取节点的id值,这些方法同前面的分享的一样,可以参考前几篇经验,代码如下:String s = dom.select("c").attr("id"); System.out.println(s);
5
第五步:xml转换成html,在jsoup里面这种转换是很简单的,只需要简简单单的一句就搞定,代码如下:String html = dom.outerHtml(); System.out.println(html);
6
第六步:jsoup对html和xml解析非常方便,但是jsoup不能执行js文件,模仿不了点击事件,但是配合Selenium 一起更好用。在下一个系列中将会分享Selenium 的使用
注意事项
注意路径