Java通过正则去掉文章里的多个连续空行

Java Word文档内容读取

最新推荐文章于 2024-06-29 03:20:07 发布

原创最新推荐文章于 2024-06-29 03:20:07 发布 · 437 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#Java

本文介绍了一种使用Java从Word文档中读取文本内容的方法，并通过正则表达式处理来移除多余的空行，确保输出内容整洁。该方法对于自动化处理Word文档非常有用。

// 去掉多个换行
ontent = content.replaceAll("(\r?\n(\\s*\r?\n)+)", "\r\n");

[b]从word中读取内容，通过正则去掉文章里的多个连续空行[/b]
package cn.com.quiz;

/*
读取word内容并把内容写入到一个String中

去掉那些
换行+(任意个空白+换行) 替换为一个换行

换行可能是\n 也可能是 \r\n 所以使用 \r?

*/

import java.io.*;

import org.textmining.text.extraction.WordExtractor;

class FileToString
{
public static void main(String[] args) throws IOException
{

FileInputStream in = new FileInputStream(".\\123.doc");
WordExtractor extractor = new WordExtractor();

try
{
String out = extractor.extractText(in);
System.out.println("before: " + out);
out = out.replaceAll("(\r?\n(\\s*\r?\n)+)", "\r\n");
System.out.println("after: " + out);
}
catch (Exception e)
{
e.printStackTrace();
}

}
}