HTML 内容抽取并将txt文本放到excel中

核心代码

需要引入的一个包:jxl-2.6.jar;
内容提取用的源包: jsoup-1.10.2.jar
- 读取txt文件

            fis = new FileInputStream(
                    "C:\\Users\\Administrator\\Desktop\\app3\\123.txt");
                    // FileInputStream 从文件系统中的某个文件中获取字节
            isr = new InputStreamReader(fis);// InputStreamReader 是字节流通向字符流的桥梁,
            br = new BufferedReader(isr);// 从字符输入流中读取文件中的内容,封装了一个new
                                            // InputStreamReader的对象
            while ((str = br.readLine()) != null) {}//这里对应的是txt的每一行,逐条处理数据
  • 向excel中写入
           WritableWorkbook book = Workbook.createWorkbook(new File("401-500.xls"));
            // 生成名为“第一页”的工作表,参数0表示这是第一页
            WritableSheet sheet = book.createSheet("第一页", 0);
            Label tempLabel = new Label(0, 0, "test");
            // 将定义好的单元格添加到工作表中
            sheet.addCell(tempLabel);
  • jsoup内容匹配
    Document doc = Jsoup
                    .connect(url)
                    .cookie("PHPSESSID", "prl7rupp8fud19iil04qod1886")
                    .cookie("token", "92a63634-e8b1-49db-acbf-4fac2bfcf44a")
                    .cookie("account_id", "173057768").timeout(30000).get();

  • 对于Document进行处理
        Elements es = doc.select("div.qa_list > div.qa_item");
            if (es.size() > 0) {
                for (int j = 0; j < es.size(); j++) {
                    String s = es
                            .get(j)
                            .select("div.qa_question_list > div.qa_question > input")
                            .attr("value")//内容中的属性值
                            + "---"
                            + es.get(j)
                                    .select("div.qa_answer_bg > div.qa_answer")
                                    .text();//标签中的text值
                    writeToFile(file, s, append);
                }
            }
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值