这次就是一个简单的解析HTML
添加了 一个功能,就是解析一个含有6级词汇的网站,获取其中的单词,然后查询,并将查询的结果添加到数据库中
代码如下
Document doc = Jsoup.connect("http://www.hxen.com/CET46/CET6/yfch/2016-05-26/427412.html").timeout(8000).get();
Elements ps = doc.getElementsByTag("p");
String str = ps.get(1).html().replace("<br />", "#").replace(" ", "@");
String[] strings = str.split("#");
for (String s : strings) {
s = s.split("@@")[1].trim();
getJsonResult(getWordString(s), s);
}使用Jsoup解析,目的是获取单词,具体如下:
网页的源码中只有两个p标签,直接获取p标签集合,然后取出其中第二个,里面就是单词段落
用#代替<br/>,以#作为分割来获取分割的行
观察得到每行单词前面都有两个空格键,于是使用@代替空格符,然后通过@@来分割行,获取第二个元素,即为单词
这样就获取到单词了,之后调用api查询即可
当然,查到最后,API那边竟然不让查了,说是频繁访问,不过其实可以直接用网页来查询,在解析其中的数据

本文介绍如何使用Jsoup解析特定HTML页面中的六级英语词汇,通过替换标签和空格来精确提取单词,最后调用API进行词汇查询。
1342

被折叠的 条评论
为什么被折叠?



