Android应用之词典（三）

最新推荐文章于 2021-05-27 16:38:41 发布

原创最新推荐文章于 2021-05-27 16:38:41 发布 · 1.2k 阅读

2 ·

CC 4.0 BY-SA版权

Android 同时被 2 个专栏收录

76 篇文章

订阅专栏

Jsoup

3 篇文章

订阅专栏

本文介绍如何使用Jsoup解析特定HTML页面中的六级英语词汇，通过替换标签和空格来精确提取单词，最后调用API进行词汇查询。

这次就是一个简单的解析HTML

添加了一个功能，就是解析一个含有6级词汇的网站，获取其中的单词，然后查询，并将查询的结果添加到数据库中

代码如下

                    Document doc = Jsoup.connect("http://www.hxen.com/CET46/CET6/yfch/2016-05-26/427412.html").timeout(8000).get();
                    Elements ps = doc.getElementsByTag("p");
                    String str = ps.get(1).html().replace("<br />", "#").replace(" ", "@");
                    String[] strings = str.split("#");
                    for (String s : strings) {
                        s = s.split("@@")[1].trim();
                        getJsonResult(getWordString(s), s);
                    }

使用Jsoup解析，目的是获取单词，具体如下：

网页的源码中只有两个p标签，直接获取p标签集合，然后取出其中第二个，里面就是单词段落

用#代替<br/>，以#作为分割来获取分割的行

观察得到每行单词前面都有两个空格键，于是使用@代替空格符，然后通过@@来分割行，获取第二个元素，即为单词

这样就获取到单词了，之后调用api查询即可

当然，查到最后，API那边竟然不让查了，说是频繁访问，不过其实可以直接用网页来查询，在解析其中的数据