Tika提取文本内容,支持:xls/xlsx、txt、doc/docx、ppt/pptx、pdf、zip等多种格式
给需要的小伙伴提供思路和便利
import org.apache.commons.io.FileUtils;
import org.apache.commons.io.IOUtils;
import org.apache.commons.lang3.StringUtils;
import org.apache.tika.Tika;
import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.AutoDetectParser;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.Parser;
import org.apache.tika.sax.BodyContentHandler;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;
import org.xml.sax.SAXException;
import java.io.File;
import java.io.FileInputStream;
import java.io.FileNotFoundException;
import java.io.IOException;
/**
* <b>tika提取文件内容服务接口实现类</b>
*
订阅专栏 解锁全文
1612

被折叠的 条评论
为什么被折叠?



