Jsoup讲解

Jsoup讲解

jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。

一、jsoup的主要功能:

  1. 从一个 URL,文件或字符串中解析 HTML;

  2. 使用 DOM 或 CSS 选择器来查找、取出数据;

  3. 可操作 HTML 元素、属性、文本;

二、案例:

  1. 直接从字符串中解析
    String html = “< html >< head>< title> 武汉麦达< /title>< /head>”
  2. “< body>< p> 这里是 jsoup 项目的相关文章 < /p>< /body>< /html>”;
    Document doc = Jsoup.parse(html);

  3. 从 URL 直接加载 HTML 文档
    (1)get请求
    Document doc = Jsoup.connect(“http://www.metadata.net/“).get();
    (post)请求
    Document doc = Jsoup.connect(“http://www.oschina.net/“)
    .data(“query”, “Java”) // 请求参数
    .userAgent(“I ’ m jsoup”) // 设置 User-Agent
    .cookie(“author”, “cookie”) // 设置 cookie
    .timeout(3*1000) // 设置连接超时时间
    .post(); // 使用 POST 方法访问 URL

三、选择器:

  1. 基本用法
    tagname 使用标签名来定位,例如 a
    ns|tag 使用命名空间的标签定位,例如 fb:name 来查找 < fb:name> 元素
    #id 使用元素 id 定位,例如 #logo
    .class 使用元素的 class 属性定位,例如 .head
    [attribute] 使用元素的属性进行定位,例如 [href] 表示检索具有 href 属性的所有元素
    [^attr] 使用元素的属性名前缀进行定位,例如 [^data-] 用来查找 HTML5 的 dataset 属性
    [attr=value] 使用属性值进行定位,例如 [width=500] 定位所有 width 属性值为 500 的元素
    [attr^=value], [attr$=value], [attr*=value] 这三个语法分别代表,属性以 value 开头、结尾以及包含
    [attr~=regex] 使用正则表达式进行属性值的过滤,例如 img[src~=(?i)\.(png|jpeg)]
    * 定位所有元素

  2. 组合用法
    el#id 定位 id 值某个元素,例如 a#logo ->< a id=logo href= … >
    el.class 定位 class 为指定值的元素,例如 div.head -> < div class=head>xxxx< /div>
    el[attr] 定位所有定义了某属性的元素,例如 a[href]
    以上三个任意组合 例如 a[href]#logo 、a[name].outerlink
    ancestor child 这五种都是元素之间组合关系的选择器语法,其中包括父子关系、合并关系和层次关系。
    parent > child
    siblingA + siblingB
    siblingA ~ siblingX
    el, el, el

  3. 表达式
    lt(n) 例如 td:lt(3) 表示 小于三列
    :gt(n) div p:gt(2) 表示 div 中包含 2 个以上的 p
    :eq(n) form input:eq(1) 表示只包含一个 input 的表单
    :has(seletor) div:has(p) 表示包含了 p 元素的 div
    :not(selector) div:not(.logo) 表示不包含 class=logo 元素的所有 div 列表
    :contains(text) 包含某文本的元素,不区分大小写,例如 p:contains(oschina)
    :containsOwn(text) 文本信息完全等于指定条件的过滤
    :matches(regex) 使用正则表达式进行文本过滤:div:matches((?i)login)
    :matchesOwn(regex) 使用正则表达式找到自身的文本
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值