java 读取word (不带格式)

最新推荐文章于 2025-09-01 09:54:56 发布

原创最新推荐文章于 2025-09-01 09:54:56 发布 · 882 阅读

1 ·

CC 4.0 BY-SA版权

java 专栏收录该内容

252 篇文章

订阅专栏

<dependency>
     <groupId>org.apache.poi</groupId>
     <artifactId>poi</artifactId>
     <version>3.16</version>
</dependency>



<dependency>
     <groupId>org.apache.poi</groupId>
     <artifactId>poi-ooxml</artifactId>
     <version>3.16</version>
</dependency>


<dependency>
     <groupId>org.apache.poi</groupId>
     <artifactId>poi-scratchpad</artifactId>
     <version>3.16</version>
</dependency>

代码：

package springTimer;

import java.io.File;
import java.io.FileInputStream;
import java.io.InputStream;
import java.util.List;

import org.apache.poi.POIXMLDocument;
import org.apache.poi.POIXMLTextExtractor;
import org.apache.poi.hwpf.extractor.WordExtractor;
import org.apache.poi.openxml4j.opc.OPCPackage;
import org.apache.poi.xwpf.extractor.XWPFWordExtractor;

import springTimer.util.CharIndexUtil;

public class testReadDocx {

/**
     * 读取word文件内容
     *
     * @param path
     * @return buffer
     */

    public static String readWord(String path) {
        String buffer = "";
        try {
            if (path.endsWith(".doc")) {
                InputStream is = new FileInputStream(new File(path));
                WordExtractor ex = new WordExtractor(is);
                buffer = ex.getText();
                ex.close();
            } else if (path.endsWith("docx")) {
                OPCPackage opcPackage = POIXMLDocument.openPackage(path);
                POIXMLTextExtractor extractor = new XWPFWordExtractor(opcPackage);
                buffer = extractor.getText();
                extractor.close();
            } else {
                System.out.println("此文件不是word文件！");
            }

        } catch (Exception e) {
            e.printStackTrace();
        }

        return buffer;
    }



    public static void main(String[] args) {

    List<File> files = DocumentUtil.getFiles("E:\\zhenglilunbotu\\testdocx\\");
    for (File file : files) {

      String path = file.getPath();
      String name = file.getName();
      int indexOf = name.indexOf(".");
      String substring = name.substring(indexOf);
      if(".docx".equals(substring)){
       System.out.println(path);

       String content = testReadDocx.readWord(path);
       System.out.println("content===="+content);


             int index1 = CharIndexUtil.getCharacterPosition(content, "：", 5);
             int index2 = CharIndexUtil.getCharacterPosition(content, "：", 6);
             int index3 = CharIndexUtil.getCharacterPosition(content, "：", 7);

             String sc = content.substring(index1+1, index2-4);
             String jl = content.substring(index2+1, index3-4);
             String ry = content.substring(index3+1);
             System.out.println(sc);
             System.out.println(jl);
             System.out.println(ry);
      }else if(".png".equals(substring)){
       System.out.println(path);
      }

  }
}
}

package springTimer;

import java.io.File;
import java.util.ArrayList;
import java.util.List;

//遍历文件夹下的所有文件
public class DocumentUtil {

//path:文件的地址例如：D:\\videoUpload
public static List<File> getFiles(String path){
     File root = new File(path);
     List<File> files = new ArrayList<File>();
     if(!root.isDirectory()){
         files.add(root);
     }else{
         File[] subFiles = root.listFiles();
         for(File f : subFiles){
             files.addAll(getFiles(f.getAbsolutePath()));
         }
     }
     return files;
}
}