Java根据XPath提取HTML

最新推荐文章于 2025-05-28 16:05:02 发布

weixin_34117522

最新推荐文章于 2025-05-28 16:05:02 发布

阅读量3.2k

点赞数 1

CC 4.0 BY-SA版权

文章标签： java

原文链接：https://my.oschina.net/itblog/blog/1501618

本文介绍如何使用Java结合HtmlCleaner和XPath从不规范的HTML中提取数据，通过实例演示了如何定位并获取特定元素。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

为什么80%的码农都做不了架构师？>>>

有这样一段HTML：

<div><table><td id='1234 foo 5678'>Hello</td>

希望通过这个XPath提取出Hello：

//div//td[contains(@id, 'foo')]/text()

先导入maven依赖：

<!-- https://mvnrepository.com/artifact/net.sourceforge.htmlcleaner/htmlcleaner -->
<dependency>
    <groupId>net.sourceforge.htmlcleaner</groupId>
    <artifactId>htmlcleaner</artifactId>
    <version>2.21</version>
</dependency>

main函数：

package com.my.demo;

import javax.xml.xpath.XPath;
import javax.xml.xpath.XPathConstants;
import javax.xml.xpath.XPathFactory;

import org.htmlcleaner.CleanerProperties;
import org.htmlcleaner.DomSerializer;
import org.htmlcleaner.HtmlCleaner;
import org.htmlcleaner.TagNode;
import org.w3c.dom.Document;

public class HtmlXpathJava {
	public static void main(String[] args) {
		String sampleHtml = "<div><table><td id='1234 foo 5678'>Hello</td>";
		String sampleXpath = "//div//td[contains(@id, 'foo')]/text()";
		System.out.println(getValueByXpath(sampleXpath, sampleHtml));
	}
	
	/**
	 * Extract value by xPath from HTML.
	 */
	private static String getValueByXpath(String xPath, String html) {
		TagNode tagNode = new HtmlCleaner().clean(html);
		String value = null;
		try {
			Document doc = new DomSerializer(new CleanerProperties()).createDOM(tagNode);
			XPath xpath = XPathFactory.newInstance().newXPath();
			value = (String) xpath.evaluate(xPath, doc, XPathConstants.STRING);
		} catch (Exception e) {
			System.out.println("Extract value error. " + e.getMessage());
			e.printStackTrace();
		}
		return value;
	}
}

输出：