核心代码
需要引入的一个包:jxl-2.6.jar;
内容提取用的源包: jsoup-1.10.2.jar
- 读取txt文件
fis = new FileInputStream(
"C:\\Users\\Administrator\\Desktop\\app3\\123.txt");
// FileInputStream 从文件系统中的某个文件中获取字节
isr = new InputStreamReader(fis);// InputStreamReader 是字节流通向字符流的桥梁,
br = new BufferedReader(isr);// 从字符输入流中读取文件中的内容,封装了一个new
// InputStreamReader的对象
while ((str = br.readLine()) != null) {}//这里对应的是txt的每一行,逐条处理数据
- 向excel中写入
WritableWorkbook book = Workbook.createWorkbook(new File("401-500.xls"));
// 生成名为“第一页”的工作表,参数0表示这是第一页
WritableSheet sheet = book.createSheet("第一页", 0);
Label tempLabel = new Label(0, 0, "test");
// 将定义好的单元格添加到工作表中
sheet.addCell(tempLabel);
- jsoup内容匹配
Document doc = Jsoup
.connect(url)
.cookie("PHPSESSID", "prl7rupp8fud19iil04qod1886")
.cookie("token", "92a63634-e8b1-49db-acbf-4fac2bfcf44a")
.cookie("account_id", "173057768").timeout(30000).get();
- 对于Document进行处理
Elements es = doc.select("div.qa_list > div.qa_item");
if (es.size() > 0) {
for (int j = 0; j < es.size(); j++) {
String s = es
.get(j)
.select("div.qa_question_list > div.qa_question > input")
.attr("value")//内容中的属性值
+ "---"
+ es.get(j)
.select("div.qa_answer_bg > div.qa_answer")
.text();//标签中的text值
writeToFile(file, s, append);
}
}