HtmlCleanner结合xpath用法

本文通过Java实现了一个网页解析示例,使用HtmlCleaner库从新浪财经网站抓取新闻标题及内容。示例代码展示了如何按标签名获取元素、使用XPath选择特定节点,并获取链接地址。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >


HtmlCleaner cleaner = new HtmlCleaner();

TagNode node = cleaner.clean(new URL("http://finance.sina.com.cn/money/nmetal/20091209/10157077895.shtml"));
//按tag取.
Object[] ns = node.getElementsByName("title", true); //标题

if(ns.length > 0) {
System.out.println("title="+((TagNode)ns[0]).getText());
}
// /html/body/div[2]/div[4]/div/div/div/div[2]/p
ns = node.evaluateXPath("//div[@class=\"blkContainerSblkCon\"]/p"); //选取class为指定blkContainerSblkCon的div下面的所有p标签
for (int i = 0; i < ns.length; i++) {
String in = cleaner.getInnerHtml((TagNode)ns[i]);
System.out.println("<p>"+in + "</p>");
}
String in = cleaner.getInnerHtml((TagNode)ns[0]);
System.out.println(in);

System.out.println(((TagNode)ns[0]).getText());




HtmlCleaner cleaner = new HtmlCleaner();
String url = "http://finance.sina.com.cn/nmetal/hjfx.html";
URL _url = new URL(url);
TagNode node = cleaner.clean(_url);

//按tag取.
Object[] ns = node.getElementsByName("title", true); //标题

if(ns.length > 0) {
System.out.println("title="+((TagNode)ns[0]).getText());
}


ns = node.evaluateXPath("//*[@class='Frame-Row3-01-C']/table[2]/tbody/tr/td/a"); //选取class为指定blkContainerSblkCon的div下面的所有p
for (int i = 0; i < ns.length; i++) {

//取链接文本
// String in = cleaner.getInnerHtml((TagNode)ns[i]);
// System.out.println(in);

//获取链接的
TagNode n = (TagNode) ns[i];
// System.out.println(n.getAttributeByName("href"));
System.out.println(new URL(_url,n.getAttributeByName("href")).toString());
}
// String in = cleaner.getInnerHtml((TagNode)ns[0]);
// System.out.println(in);

// System.out.println(((TagNode)ns[0]).getText());

// System.out.println("ul/li:");
// //按xpath取
// ns = node.evaluateXPath("//div[@class='d_1']//li");
// for(Object on : ns) {
// TagNode n = (TagNode) on;
// System.out.println("\ttext="+n.getText());
// }
// System.out.println("a:");
// //按属性值取
// ns = node.getElementsByAttValue("name", "my_href", true, true);
// for(Object on : ns) {
// TagNode n = (TagNode) on;
// System.out.println("\thref="+n.getAttributeByName("href")+", text="+n.getText());
// }




XPath文档:[url]http://www.w3school.com.cn/xpath/xpath_syntax.asp[/url]
### 如何在Scrapy框架中使用XPath进行数据抓取和解析 #### Scrapy与XPath简介 Scrapy是一个用于编写网络爬虫程序的强大框架,能够高效地从网站上抽取结构化数据。XPath是一种在XML文档中查找信息的语言,在HTML文档中同样适用,可用于定位特定节点并提取所需的数据。 #### XPath表达式的构建 为了有效地利用XPath来选取所需的元素,通常会遵循如下流程: - 打开目标网页并通过浏览器开发者工具(如Chrome DevTools)审查页面元素。 - 定位到感兴趣的HTML片段,并分析其标签、类名或其他唯一标识符。 - 构建合适的XPath路径以精准匹配这些元素[^2]。 例如,对于一个简单的新闻列表页面,可能有如下XPath定义: ```xml # 文章标题 //body/div[4]/div[3]/p/a/text() # 文章链接 //body/div[4]/div[3]/p/a/@href # 发布时间 //body/div[4]/div[3]/p/span/text() ``` #### 实现Scrapy Spider项目 创建一个新的Scrapy工程后,可以在`spiders`目录下建立具体的爬虫逻辑文件。这里展示了一个基本的例子,展示了如何结合XPath来进行数据收集: ```python import scrapy from ..items import NewsItem # 导入自定义item模型 class ExampleSpider(scrapy.Spider): name = 'example_spider' start_urls = ['http://example.com/news'] def parse(self, response): items = [] for article in response.xpath('//body/div[@id="news-list"]/article'): item = NewsItem() title = article.xpath('.//h2/a/text()').get().strip() link = article.xpath('.//h2/a/@href').get() date_published = article.xpath('.//time/@datetime').get() item['title'] = title item['link'] = link item['date_published'] = date_published yield item next_page_url = response.css('nav.pagination a.next::attr(href)').get() if next_page_url is not None: yield response.follow(next_page_url, callback=parse) ``` 上述代码段说明了怎样在一个名为`ExampleSpider`的爬虫类里运用XPath选择器读取每篇文章的相关字段,并将其封装成`NewsItem`实例返回给后续处理环节。同时实现了翻页功能以便遍历多页内容[^5]。 #### 数据项(Item)的设计 为了让抓取来的数据更加规整有序,建议预先设计好相应的Item类,这有助于后期对所获资料做进一步加工整理。比如针对上面提到的文章实体,可以这样声明对应的Item: ```python import scrapy class NewsItem(scrapy.Item): title = scrapy.Field() link = scrapy.Field() date_published = scrapy.Field() ``` 此部分描述了如何设置存储单篇报道基本信息的对象模板,方便之后的操作以及与其他组件交互时传递统一格式的信息包[^1]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值