学习Jsoup（一）

最新推荐文章于 2024-05-03 17:19:41 发布

原创最新推荐文章于 2024-05-03 17:19:41 发布 · 1.1k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#regex #html

网络编程专栏收录该内容

4 篇文章

订阅专栏

听同学说Jsoup用来做爬虫非常好用，而且它的selector几乎能够代替正则，对于苦苦学习爬虫技术的我，简直就像天上掉下的馅饼。

我现在想解决的第一个问题是，提取文章所在的地址。需要用到的技术有：

一、用正则抽取符合条件的html语句；

二、在语句中筛选出地址；

三、在语句中筛选出文章的标题。

解决办法：

一、使用Jsoup的selector

http://jsoup.org/apidocs/中的selector

其中这句能够解决问题

语句解释例子

`[attr~=regex]`	elements with an attribute named "attr", and value matching the regular expression	`img[src~=(?i)\\.(png\|jpe?g)]`
	The above may be combined in any order	`div.header[title]`

我的例子：select("a[title~=讲话]")意思是a标签后面包括了“讲话”的title。

二、在语句中筛选出地址

我用的是attr("href")，把href后的链接地址抓出来，用attr(abs : href )就能够得出绝对地址。

参考http://www.open-open.com/jsoup/attributes-text-html.htm

三、在语句中抓文本

用text()方法，参考如上。

今天先写到这里，大家一起讨论吧。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

robinliu2010

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

在Python中执行JavaScript的方法

uote_e的博客

09-27

284

选择哪种方法取决于您的具体需求和偏好。无论您选择哪种方法，都可以在Python中轻松地执行JavaScript代码，并利用JavaScript的功能来扩展您的应用程序或与Web页面进行交互。PyExecJS是另一个流行的库，它允许我们在Python中使用多种JavaScript运行时（如Node.js和PhantomJS）来执行JavaScript代码。PyV8是一个将V8 JavaScript引擎绑定到Python的库，它允许我们直接在Python中执行JavaScript代码。

Jsoup爬虫并解析网页

admin3335的博客

08-29

890

Jsoup爬虫并解析网页

参与评论您还未登录，请先登录后发表或查看评论

爬虫之Jsoup

m0_37695902的博客

02-16

122

原文地址

Jsoup爬虫入门实战

G823909的博客

11-28

1231

jsoup 是一款基于 Java 的HTML解析器，它提供了一套非常省力的API，不但能直接解析某个URL地址、HTML文本内容，而且还能通过类似于DOM、CSS或者jQuery的方法来操作数据，所以 jsoup 也可以被当做爬虫工具使用。

ChatGPT：使用Jsoup库解析和操作HTML文档的示例和技巧

XRT_knives的博客

09-21

635

ChatGPT：使用Jsoup库解析和操作HTML文档的示例和技巧

python 爬虫抓取网页数据导出excel_利用jsoup爬虫工具，爬取数据，并利用excel导出...

weixin_39667452的博客

11-24

358

import java.io.BufferedInputStream;import java.io.BufferedReader;import java.io.FileInputStream;import java.io.FileOutputStream;import java.io.IOException;import java.io.InputStreamReader;import java....

2024年Python最全Java爬虫利器：Jsoup详细介绍与用法_java jsoup

2301_82242779的博客

04-30

479

/ 加载新闻网站的HTML文档。// 加载图片网站的HTML文档。

Jsoup抓取一个完整的网站.rar

08-30

通过学习和运行这个示例，你可以掌握使用Jsoup抓取和保存整个网站的基本技巧，这对于网络爬虫开发、数据分析或者网站备份都非常有帮助。请注意，进行网页抓取时需遵守网站的robots.txt文件规定以及相关的网络使用...

jsoup开发例子学习使用

07-30

通过深入学习和实践，你可以利用jsoup高效地处理HTML内容，无论是爬取数据还是构建Web抓取应用，jsoup都是一个强大且易用的工具。在这个jsoup例子压缩包中，你可能会找到一些示例代码，帮助你更好地理解和应用上述...

jsoup爬虫学习之爬取博客（包含jsoup jar包）

11-13

在"jsoup爬虫学习源代码"中，你可能已经看到了如何构建一个基本的爬虫项目。通常，一个简单的`jsoup`爬虫会包括以下几个步骤： 1. **连接网页**：使用`Jsoup.connect(url).get()`方法连接到指定的网页，并获取HTML...

jsoup学习笔记简明教程

无名小辈

01-17

4864

一.什么是jsoup jsoup是一个用于实际处理HTML的Java库。它使用HTML最佳DOM方法和css选择器，为获取URL以及提取和处理数据提供了非常方便的API。简单地说，他是一个Java爬虫给的api工具方法。他的优点： jsoup 实现WHATWG HTML5规范，并将HTML解析为与现代浏览器相同的DOM. 1...

Jsoup代码解读之一概述Java开发Java经验技巧共3

11-22

【标题】：Jsoup代码解读之一 - 概述Java开发中的经验与技巧【内容】：在Java开发中，Jsoup是一个非常实用的库，它主要用于解析...在学习和应用Jsoup的过程中，开发者应注重实践，多做实验，以更好地掌握这一工具。

2024年Python最全Java爬虫利器：Jsoup详细介绍与用法_java jsoup，被面试官怼了还有戏吗

最新发布

2401_84140687的博客

05-03

443

①　2000多本Python电子书（主流和经典的书籍应该都有了）②　Python标准库资料（最全中文版）③　项目源码（四五十个有趣且经典的练手项目及源码）④　Python基础入门、爬虫、web开发、大数据分析方面的视频（适合小白学习）⑤ Python学习路线图（告别不入流的学习）

Java程序中使用 Jsoup 爬虫( 简单示例 )

梓鸿

02-28

522

Java程序中使用 Jsoup 爬虫( 简单示例 ) 一、maven项目里pom添加jsoup依赖 <dependency> <groupId>org.jsoup</groupId> <artifactId>jsoup</artifac...

牛逼操作！我用 Python 做了一个编程语言 20 年的动态排行榜！

静觅

04-26

1207

“ 阅读本文大概需要 4 分钟。 ”在编程语言的舞台上，一直有着谁是最好的语言的竞争，小编虽然一直用着几种编程语言，但是感觉个人的想法不能代表着大家的想法。虽然关于最好语言的争论从未停止...

python3的基础数据类型_Python3量化分析从小白到破产 - 变量与基础数据类型

weixin_39971132的博客

12-11

169

文：蓝兔子读难NOTES图：配图来源于网络Python3 量化分析从小白到破产笔记基础数据类型-认识变量编码：0003最前面先放个简易目录，理清思绪好上路。python基础：编程环境准备学习路线规划当前=>基础数据类型：变量、字符串～基础语法与规范：注释、缩进～常用运算符：平方、与或非～程序3种执行结构：顺序、分支、循环高阶数据类型：列表、字典～函数：定义、调用、传参～高级特性：切片、迭...

爬虫项目（一）爬虫+jsoup轻松爬知乎