crawler_解析之_jquery_语法选择器使用方法

本文介绍使用正则表达式及jsoup进行网页爬取的技术细节,包括正则表达式的应用、调试工具推荐,以及jsoup的选择器语法,特别强调了实际项目中对jsoup的运用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

爬虫解析一般使用 正则或者给予样式的 jquery语法选择器

正则是根本,类比jsoup基于dom,底层也有部分是基于正则实现的,linux操作系统

文本处理也是借助强大的正则体现的 。关于正则 请参考 《正则指引》书 。

正则基本语法 :http://cphmvp.diandian.com/post/2012-07-31/40032077081

搜索爬虫常用正则:http://cphmvp.diandian.com/post/2012-11-10/40041792417

正则的调试工具有很多,推荐个 RegexBuddy 。 这里就不多做介绍了或者后续补充 。

今天着重讲下 jsoup,近期做了一千多个站点,主要依靠jsoup,jquery的语法选择器恶补了下(其实用到的也不多)

跟xpath 相似,写时可以借助 firefox的插件自动生成 。

个人写了个 cssQuery语法选择器的帮助工具 :下载地址:http://pan.baidu.com/s/1eQ1NfrW 

1:支持自动生成下一页query 规则生成 

2: 支持源码获取 ,自动刷新支持

3: 匹配结果查看 

转载于:https://www.cnblogs.com/cphmvp/p/3606293.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值