使用Jsoup对HTML进行解析

最新推荐文章于 2024-04-30 18:02:17 发布

原创最新推荐文章于 2024-04-30 18:02:17 发布 · 106 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#python #java

Java 同时被 2 个专栏收录

250 篇文章

订阅专栏

开源应用

156 篇文章

订阅专栏

本文介绍Java HTML解析工具Jsoup的使用方法，包括解析服务器和本地HTML文件，获取<title>和<body>标签内容等常见操作。

[url]http://blog.youkuaiyun.com/a2bgeek/article/details/7860954[/url]
貌似解析HTML的工具名字都是XXsoup，比如python的beautifulsoup，这里介绍一下java的Jsoup。我这里只说我使用的感受。
Jsoup可以解析服务器上的、本地的HTML文件，将里面的标签过滤掉，得到有用的内容，。
比如只需要<title>标签的内容，

解析本地的：需要把文件放到IO流中

Document doc = Jsoup.parse(inputStream, "UTF-8", "http://www.google.com.hk/");  
String title = doc.title();

解析服务器上的：

Document doc = Jsoup.connect("http://www.XXX.com/").get();   
String title = doc.title();

再比如需要整个<body>中的内容，

Document doc = Jsoup.parse(inputStream, "UTF-8", "http://www.google.com.hk/");  
Element body = doc.body();  
String text = body.text();

下面的的链接是Jsoup的帮助文档：
[url]http://jsoup.org/apidocs/[/url]
下面是官方的SDK：
Jsoup1.6.3
还有一个我学习Jsoup的链接：
[url]http://www.oschina.net/code/tag/jsoup[/url]

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

不净之心

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

使用dom对html文档进行解析

红豆和绿豆的博客

11-16

443

将html文档映射到内存中，然后操作内存中的对象。从而就可以动态的修改页面上的值。将一个html文档映射到内存之后，整个内存类的继承图，就是上面这个图所示的。 HTML元素之间的包含关系如下图所示：

jsoup对于html的解析-爬虫

Ting1king的博客

05-17

211

依赖  <dependency> <groupId>org.jsoup</groupId> <artifactId>jsoup</artifactId> <version>1.11.3</version> </dependency> 代码 //从URL加

参与评论您还未登录，请先登录后发表或查看评论

html解析的简单方式,Webkit之HTML解析

weixin_42500720的博客

06-10

351

加载部分HTML文本(即主资源)后便可以开始解析HTML元素(对输入字节流进行逐字扫描，识别HTML元素)，最后生成DOM树，本文只讲HTML解析。HTML解析部分时序图：其中最为重要的过程是(1)startToken(2)nextToken(3)endToken(4)constructTreeFromHTMLToken，这里的4步是循环执行的，当输入字符结束时，则跳出循环。HTMLTokeniz...

XML解析——Jsoup解析XML文档

qq_41521264的博客

12-03

467

XML解析方式： DOM方式：将标记语言文档一次性加载到内存中，在内存中形成一DOM树的树形结构优点：操作方式简单，可以对文档很轻易的进行CRUD操作，与JS操作DOM方式几乎一样缺点：占用内存太大，特别消耗资源 XML的常见解析器： JAxp DOM4J Jsoup。当然还有其他这里不一一列举了选用Jsou解析器做演示。使用步骤：导包肯定就不用说了吧加载...

使用jsoup解析html的table中的文本信息实例

10-18

在本文中，我们将深入探讨如何使用Jsoup这个Java库来解析HTML文档，特别是提取HTML表格（table）中的文本信息。Jsoup是一个强大的库，它提供了方便的API来处理HTML，包括解析、查找、修改和输出HTML内容。让我们通过...

使用 jsoup 对 HTML 文档进行解析和操作

03-29

**标题：“使用 jsoup 对 HTML 文档进行解析和操作”** **内容概述：** 这篇博客主要探讨了如何利用 jsoup 这个 Java 库来解析和操作 HTML 文档。jsoup 是一个强大的库，它提供了丰富的 API，可以方便地解析 HTML、...

Android使用Jsoup解析Html表格的方法

09-03

总的来说，Android结合Jsoup解析HTML表格涉及的关键点包括：获取HTML字符串，解析HTML，使用选择器定位表格元素，遍历并处理表格行和列，以及将HTML内容转化为Android UI组件。通过熟练掌握这些步骤，你可以构建出...

利用jsoup解析html

12-22

　jsoup 是一款 Java的HTML解析器，可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API，可通过DOM，CSS以及类似于jQuery的操作方法来取出和操作数据。jsoup 的主要功能如下：　（1）从一个 URL，...

jsoup基本操作

小母牛倒立的博客

07-09

735

这里只写我项目中使用较多的其他以后在补上：Document html=Jsoup.parse("这里是一个html标准的string"); Document html=Jsoup.parseBodyFragment(html)；对于那些缺标签的文档进行处理抓取页面的document：1、Document html=Jsoup.connect(urlSource+username)......get...

jsoup-1.13.1-javadoc.jar包，用于对HTML文本的规范化处理

11-30

jsoup 是一款Java 的HTML解析器，可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API，可通过DOM，CSS以及类似于jQuery的操作方法来取出和操作数据。

Jsoup操作解析Html文件

12-15

可以在代码解析并修改HTML，添加链接，获得动态资源，支持各种标签，兼容性很好

Jsoup解析xml

FORLOVEHUAN的博客

05-07

1101

从网页中取出想要的信息：导入 <dependency>  <groupId>org.jsoup</groupId> <artifactId>jsoup</artifactId> <versio...

jsoup解析html之table表格

极客鼠之家

08-13

1422

jsoup解析html之表格table

Jsoup 乱码问题解决

panzejia的博客

04-07

2858

一般出现这个情况是由于url指向的页面，实际编码与html中描述的编码不符导致。如：开发时用的GBK编码编写，但html中却写UTF-8。典型的就是在中文Windows下用记事本，写一个UTF-8的html就会出现这个问题。你可以不用jsoup.connect，这个会从html描述中识别。你可以用Jsoup.parse(InputStream in, String charsetName, Stri

Jsoup爬取带权限的乱码网站

清雨夜

08-05

466

前言之前使用pySpider，虽然pySpider使用非常简单，但是在爬取网页的时候会出现漏解析的现象。比如明明有5个<a>标签，他只给你返回2个。这个问题随机出现在各个网页，我很确定不是选择器的问题，目前我对此问题毫无头绪。这时候Jsoup就非常香了。Jsoup爬虫是一个用java语言写的jar包，导入即可使用，非常方便。在使用过程中，没有发现pySpider类似的问题但是仍然遇到了一个小问题，我们在爬网页的时候，有时需要设置网页编码（有些网站自己的编码有问题，要爬取这类网站就比较麻烦

Jsoup学习之Jsoup类

weixin_30457881的博客

11-28

404

Jsoup类一、类结构 java.lang.Object org.jsoup.Jsoup public classJsoup extends Object Jsoup类来自于org.jsoup.Jsoup包，并且继承自Object类。二、方法 Method ...

爬虫（一）(Jsoup乱码)

yinyiyu的博客

04-23

1585

Jsoup乱码处理 jsoup在爬取网页的时候，如果不设置编码格式，可能会造成遇到生僻字的时候乱码解决方法：在爬取的时候加入网页对应的编码格式； Document document = Jsoup.parse(setHeader(address).getInputStream(), "GBK", address); --- public static HttpURLConnection ...

2024年Python最全Java爬虫利器：Jsoup详细介绍与用法_java jsoup