第1关:利用Jsoup抓取携程旅游网的数据
任务描述
本关任务:使用Jsoup获取携程旅游网的数据。
相关知识
现在我们目标是获取携程旅游网的数据,然后将获取到的数据清洗,清洗一些无意义的数据,最后在存入到Hadoop中,这样我们就完成了数据获取、数据清洗、数据存储。
现在我们要来一起完成第一步,数据获取,在我们知道一个网站地址的前提下,如何提取该网站的数据为我们所用呢?
需要一些工具,比如 Jsoup。
Jsoup 的使用
jsoup 是一款 Java 的 HTML 解析器,可直接解析某个 URL地址、HTML文本内容。它提供了一套非常省力的API,可通过 DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。
jsoup的主要功能如下:
从一个URL 件或字符串中解析 HTML;
使用 DOM 或 CSS 选择器来查找、取出数据;
可操作 HTML 元素、属性、文本;
jsoup 是基于 MIT 协议发布的,可放心使用于商业项目。
开始你的任务吧,祝你成功!
package step1