1、Jsoup介绍
1.1、简介
jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。
1、2、Jsoup的主要功能
1)从一个URL,文件或字符串中解析HTML
2)使用DOM或CSS选择器来查找、取出数据
3)可操作HTML元素、属性、文本
注意:jsoup是基于MIT协议发布的,可放心使用于商业项目。
jsoup api
6个包提供用于开发jsoup应用程序的类和接口。
org.jsoup
org.jsoup.examples
org.jsoup.helper
org.jsoup.nodes
org.jsoup.parser
org.jsoup.safety
org.jsoup.salect
主要类:
- Jsoup 类提供了连接,清理和解析HTML文档的方法
- Document 获取HTML文档
- Element 获取、操作HTML节点
2、爬取思路
2.1、因为项目需要获取某地的实时天气(温度、相对湿度、降雨量、风力风向),前台定义好了样式,那就只能后台获取。因为后台是用java写的,所以决定使用jsoup。查看了一下相关天气网站的,感觉中国天气网的数据最好获取。
中国天气网的实时数据是以柱状图的形式展开的,直接对柱状图获取数据,有点不太现实。但是查看html代码可以发现下面的ja