简介
Jsoup
是一个Java库,用于解析HTML文档和提取所需的数据。它提供了一种非常方便的方式来处理实际网页上的数据抓取、解析和操作。Jsoup
能够将复杂的HTML文档转换成一个可操作的DOM(文档对象模型)树结构,使得开发者可以使用类似于jQuery的选择器语法来定位和提取文档中的元素。本章主讲Document类。
Document
类是Jsoup
库中的一个核心类,它代表了一个完整的HTML文档。当你使用Jsoup
解析一个HTML字符串、URL或文件时,你会得到一个Document
对象。这个对象允许你以面向对象的方式遍历和操作HTML文档中的各个部分,包括元素(如<div>
、<a>
)、属性(如class
、id
)以及文本内容。
一、response.body()获取内容
String html = response.body();
从Retrofit的响应对象(response
)中提取HTML内容。response.body()
方法返回的是HTTP响应的主体部分,这里假设它是一个HTML字符串。
二、Jsoup库解析HTML字符串
Document doc = Jsoup.parse(html);