NekoHTML 和 XPath

本文介绍使用NekoHTML解析HTML文档的方法,并结合XPath提取所需数据。通过具体案例展示如何配置解析器、设置字符编码及获取指定节点内容。

  如果需要在HTML页面中提取数据,那么NekoHTML 是个不错的工具。因为HTML跟XML不一样,可能存在一些格式不完整的元素,譬如没有end tag的table等,这个时候,NekoHTML是个很尽责的清道夫和修理工,可以帮助我们整理这些缺陷数据,最终生成一个DOM Tree。  得到DOM Tree话,使用XPath就可以轻松获取所需数据了:-)

  下面是几个需要注意的问题:

1、如何使用NekoHTML?

     必须在 Java Build Path里加入 nekohtml.jar , xercesImpl.jar 以及xalan.jar。下载的NekoHTML目录中并没有xercesImpl.jar和xalan.jar,需要自己下载。

 

2、如何获取XPath?

    当然大家可以把网页的代码下下来,然后使用“人工智能”的方式获取,但是过程确实让人眼花缭乱、心力交瘁。使用FireBug吧,可以自动生成XPath。

    updated:

    Firebug生成的XPath中如果含有TBODY标签,需要把TBODY去掉,否则不能正确获取网页的内容。如Firebug生成的XPath为/html/body/table/tbody/tr,那么则需要修改为/html/body/table/tr。

 

4、如何正确结合NekoHTML和XPath?

    XPath的Tag必须大写。如

    String divXpath = "//DIV";//正确

    String divXpath = "//div";//错误

 

 下面举个例子,提取当当网图书的ISBN信息:

DOMParser parser = new DOMParser();
    try {
    	   //设置网页的默认编码
    	   parser.setProperty("http://cyberneko.org/html/properties/default-encoding","gb2312");
    	   /*The Xerces HTML DOM implementation does not support namespaces 
    	   and cannot represent XHTML documents with namespace information. 
    	   Therefore, in order to use the default HTML DOM implementation with NekoHTML's 
    	   DOMParser to parse XHTML documents, you must turn off namespace processing.*/
    	   parser.setFeature("http://xml.org/sax/features/namespaces", false);

    	   String strURL = "http://product.dangdang.com/product.aspx?product_id=9317290";
    	   BufferedReader in = new BufferedReader(
    			   new InputStreamReader(
    					   new URL(strURL).openStream()));
    	   parser.parse(new InputSource(in));
    	   in.close();
    	  } catch (Exception e) {
    	   e.printStackTrace();
    	  }
    	  Document doc = parser.getDocument();
    	  // tags should be in upper case
    	  String productsXpath = "/HTML/BODY/DIV[2]/DIV[4]/DIV[2]/DIV/DIV[3]/UL[@class]/LI[9]";
    	  NodeList products;
    	  try {
    	      products = XPathAPI.selectNodeList(doc, productsXpath);
    	      System.out.println("found: " + products.getLength());
    	      Node node = null;
    	      for(int i=0; i< products.getLength();i++)
    	      {
    	    	  node = products.item(i);
    	    	  System.out.println( i + ":\n" + node.getTextContent());
    	      }
    	  }catch (TransformerException e) {
    	      e.printStackTrace();
    	  } 

 

一些有用的链接:

1、Java HTML Parser 比较

2、java XPATH

3、XPath定位

传送带损坏与对象检测数据集 一、基础信息 • 数据集名称:传送带损坏与对象检测数据集 • 图片数量: 训练集:645张图片 验证集:185张图片 测试集:92张图片 总计:922张工业监控图片 • 训练集:645张图片 • 验证集:185张图片 • 测试集:92张图片 • 总计:922张工业监控图片 • 分类类别: Hole(孔洞):传送带表面的孔洞损坏。 Human(人类):工作区域中的人类,用于安全监控。 Other Objects(其他对象):非预期对象,可能引起故障。 Puncture(刺穿):传送带被刺穿的损坏。 Roller(滚筒):传送带滚筒部件。 Tear(撕裂):传送带撕裂损坏。 impact damage(冲击损坏):由于冲击导致的损坏。 patch work(修补工作):已修补的区域。 • Hole(孔洞):传送带表面的孔洞损坏。 • Human(人类):工作区域中的人类,用于安全监控。 • Other Objects(其他对象):非预期对象,可能引起故障。 • Puncture(刺穿):传送带被刺穿的损坏。 • Roller(滚筒):传送带滚筒部件。 • Tear(撕裂):传送带撕裂损坏。 • impact damage(冲击损坏):由于冲击导致的损坏。 • patch work(修补工作):已修补的区域。 • 标注格式:YOLO格式,包含边界框类别标签,适用于目标检测任务。 • 数据格式:图像数据来源于工业监控系统,适用于计算机视觉分析。 二、适用场景 • 工业自动化检测系统开发:用于构建自动检测传送带损坏异物的AI模型,实现实时监控预防性维护,减少停机时间。 • 安全监控应用:识别人类其他对象,提升工业环境的安全性,避免事故人员伤害。 • 学术研究与创新:支持计算机视觉在制造业、物流自动化领域的应用研究,促进AI技术与工业实践的融合。 • 教育与培训:可用于培训AI模型或作为工业工程自动化教育的案例数据,帮助学习者理解实际应用场景。 三、数据集优势 • 多样化的类别覆盖:包含8个关键类别,涵盖多种损坏类型对象,确保模型能够处理各种实际工业场景,提升泛化能力。 • 精准的标注质量:采用YOLO格式,边界框标注准确,由专业标注人员完成,保证数据可靠性模型训练效果。 • 强大的任务适配性:兼容主流深度学习框架(如YOLO、TensorFlow、PyTorch),可直接用于目标检测任务,并支持扩展至其他视觉任务需求。 • 突出的工业价值:专注于工业传送带系统的实际需求,帮助提升生产效率、降低维护成本,并增强工作场所安全,具有较高的实际应用价值。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值