java读取html页面并解析<table><tr><td>

本文介绍了一个使用Java进行HTML文件中表格数据解析的方法。通过InputStreamReader和BufferedReader读取指定路径的HTML文件,并将其内容转化为字符串。利用HTMLParser库解析字符串形式的HTML内容,筛选出所有的表格元素,并遍历每个表格,获取所有行和列的数据。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

import java.io.BufferedReader;
import java.io.File;
import java.io.FileInputStream;
import java.io.FileOutputStream;
import java.io.IOException;
import java.io.InputStreamReader;
import java.util.ArrayList;
import java.util.List;

import org.htmlparser.NodeFilter;
import org.htmlparser.Parser;
import org.htmlparser.filters.NodeClassFilter;
import org.htmlparser.filters.OrFilter;
import org.htmlparser.tags.TableColumn;
import org.htmlparser.tags.TableRow;
import org.htmlparser.tags.TableTag;
import org.htmlparser.util.NodeList;
import org.htmlparser.util.ParserException;

public class aaa2 {

	public static void main(String[] args) throws IOException {
		//要读取的html文件路径
		File f = new File("D://360安全浏览器下载/2.2.html");
		// 输入流
		InputStreamReader isr1 = new InputStreamReader(new FileInputStream(f), "UTF-8");
		BufferedReader br = new BufferedReader(isr1);
		// 获取html转换成String
		String s;
		String AllContent = "";
		//按行读取
		while ((s = br.readLine()) != null) {
			AllContent = AllContent + s;
		}
		// 使用后HTML Parser 控件
		Parser myParser;
		NodeList nodeList = null;
		myParser = Parser.createParser(AllContent, "gbk");
		NodeFilter tableFilter = new NodeClassFilter(TableTag.class);
		OrFilter lastFilter = new OrFilter();
		lastFilter.setPredicates(new NodeFilter[] { tableFilter });
		try {
			// 获取标签为table的节点列表
			nodeList = myParser.parse(lastFilter);
			// 循环读取每个table
			for (int i = 0; i <=nodeList.size(); i++) {
				if (nodeList.elementAt(i) instanceof TableTag) {
					TableTag tag = (TableTag) nodeList.elementAt(i);
					TableRow[] rows = tag.getRows();
					System.out.println("----------------------table  " + i + "--------------------------------");
					// 循环读取每一行
					for (int j = 0; j < rows.length; j++) {
						TableRow tr = (TableRow) rows[j];
						TableColumn[] td = tr.getColumns();
						// 读取每行的单元格内容
						for (int k = 0; k < td.length; k++) {
							String b = td[k].getStringText();
							System.out.println(b);
						}
					}
				}
			}

		} catch (ParserException e) {
			e.printStackTrace();
		}
	}
}

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值