全网最全的Java 字符串截取方式

声明

1)该文章整理自网上的大牛和专家无私奉献的资料,具体引用的资料请看参考文献。
2)本文仅供学术交流,非商用。如果某部分不小心侵犯了大家的利益,还望海涵,并联系博主删除。
3)博主才疏学浅,文中如有不当之处,请各位指出,共同进步,谢谢。
4)此属于第一版本,若有错误,还需继续修正与增删。还望大家多多指点。大家都共享一点点,一起为祖国科研的推进添砖加瓦。

	//java在一串字符串中从指定位置开始读取,到指定字符读取
    //调用String类的以下三个函数就行了:
    //1、public int indexOf(int ch)
    //返回指定字符在此字符串中第一次出现处的索引
    //2、public int indexOf(int ch,int fromIndex)
    //返回在此字符串中第一次出现指定字符处的索引,从指定的索引开始搜索。
    //3、public String substring(int beginIndex,int endIndex)
    //返回一个新字符串,它是此字符串的一个子字符串。
    //该子字符串从指定的 beginIndex 处开始,直到索引 endIndex - 1 处的字符。
    public class Demo {
        public static void main(String[] args) {
            String substr, str = "skak+〈a〉/*&s-〈中文中文中文〈@-sj4675";
            int begin = str.indexOf('中'), end = str.indexOf('〈', begin + 1) + 1;
            substr = str.substring(begin, end);
            System.out.println(substr);
        }
    }

Java中字符串截取

1.使用StringUtils,需要导包

String strs = "abcdef1003535197";
System.out.println("=====2======" + StringUtils.substringBefore(strs, "3"));        //从开始截取到第一个“3”(不包含)
System.out.println("=====3======" + StringUtils.substringBeforeLast(strs, "3"));    //从开始截取到最后一个“3”(不包含)
System.out.println("=====4======" + StringUtils.substringAfter(strs, "3"));         //从第一个“3”(不包含)截取到末尾
System.out.println("=====5======" + StringUtils.substringAfterLast(strs, "3"));     //从最后一个“3”(不包含)截取到末尾
2.直接使用substring

String str = "1234567890ABCDEFG4";
System.out.println("-----------" + str.substring(0));        //从字符串索引为0截取,一直到末尾
System.out.println("-----1------" + str.substring(6,7));     //截取索引为6的字符
System.out.println("-----2------" + str.substring(str.length()-3, str.length()-1));        //截取字符串倒数3,2位
System.out.println("-----3------" + str.substring(0, str.indexOf("4")));                   //从字符串索引为0截取,一直到第一个“4”(不包含)
System.out.println("-----4------" + str.substring(str.indexOf("4") + 1, str.length()));    //从第一个“4”截取,一直到末尾
System.out.println("-----5------" + str.substring(str.indexOf("4"), str.indexOf("F")));    //从第一个“4”截取,一直到第一个“F”(不包含)
System.out.println("-----D------" + str.substring(13, 14));                                //截取索引为13的字符
System.out.println("=====6=====" + strs.substring(6, strs.length()));    //从下标6(包含)开始截取到末尾
System.out.println("=====7=====" + strs.substring(0, 2));                //截取前两位
System.out.println("=====8=====" + strs.substring(strs.lastIndexOf("3") + 1, strs.length()));    //从最后一个“3”(不包含)截取到末尾
import org.apache.commons.lang3.StringUtils;

java    StringUtils 截取字符串,
 
/*1. 截取指定位置的字符串*/
  
  StringUtils.substring("dskabcee", 3);
  /*结果是:abcee*/
  
  StringUtils.substring("dskabcee", 3, 5);
  /*结果是:ab*/
  
  /*2. 截取指定字符串之前的内容 */
  
  StringUtils.substringBefore("dskeabcee", "e");
  /*结果是:dsk*/
  
  StringUtils.substringBeforeLast("dskeabcee", "e");//一直找到最后一个指定的字符串
  /*结果是:dskeabce*/
  
  StringUtils.substringAfter("dskeabcedeh", "e");
  /*结果是:abcedeh*/
  
  StringUtils.substringAfterLast("dskeabcedeh", "e");
  /*结果是:h*/
  
  /*3. 截取参数2和参数3中间的字符*/
 
  StringUtils.substringBetween("dskeabcedeh", "ds");
  /*结果是:null*/
  StringUtils.substringBetween("dskeabcedeh", "ds","e");
  /*结果是:k*/
  StringUtils.substringsBetween("dskeabcedeh", "ds","e");//以数组方式返回参数2和参数3中间的字符串
  /*结果是:k */
<think>好的,用户想要了解如何从PPT或者有很多图片的PDF中提取文字。我需要先理清楚用户的需求,可能的场景,以及潜在的问题。首先,PPT图片型PDF中的文字通常是嵌入在图像中的,普通的复制粘贴方法不管用,必须用OCR(光学字符识别)技术。用户可能是个学生、教师,或者办公人员,需要处理课件、报告或者文档,想要提取里面的文字进行编辑或整理。 接下来,我需要考虑不同的解决方案,覆盖免费和付费工具,本地和在线服务,以及编程方法。常见的方法包括使用Adobe Acrobat这样的专业软件,或者免费的在线OCR网站。另外,手机应用也可能是一个方便的选择,特别是用微信QQ的扫描功能。对于技术背景的用户,可能需要提到Python库如PyMuPDF和Tesseract,或者开源工具如OCRmyPDF。 还要注意用户可能关心的问题,比如准确性、处理速度、隐私安全,尤其是处理敏感内容时在线工具的风险。此外,批量处理和大文件的支持也是需要考虑的点。需要提醒用户,如果排版复杂或图片质量差,OCR效果可能不佳,建议预处理图片。 然后,我应该分步骤介绍各种方案,从最简单易用的开始,逐步到更专业的工具。确保结构清晰,用户可以根据自己的需求选择合适的方法。最后总结关键点,帮助用户做出决策。检查是否有遗漏的工具或方法,确保信息准确,比如确认最新版的OneDrive和Google Drive是否支持OCR,以及常用软件是否有更新。</think>提取PPT图片型PDF中的文字,核心需依赖OCR(光学字符识别)技术。以下是分场景的解决方案: --- ### 一、**免费方案** 1. **Office自带功能** - **Word 2013+**:直接将PPT/PDF拖入Word,右键图片选「复制图片中的文本」 - **OneDrive网页版**:上传文件后右键选择「在Word中打开」,可提取图片文字 2. **微信/QQ快捷提取** - 手机截图后通过微信「扫一扫」或QQ「提取图中文字」功能识别 3. **在线OCR工具** - **iLovePDF** (https://www.ilovepdf.com/ocr-pdf):支持多语言,免费版有限额 - **Google Drive**:上传PDF→右键「用Google文档打开」自动OCR识别 --- ### 二、**专业软件方案** 1. **Adobe Acrobat Pro**(高精度首选) - 操作路径:工具→扫描和OCR→「识别文本」→选择输出格式 - 优势:支持批量处理、保留排版、多语言混合识别 2. **ABBYY FineReader**(学术场景推荐) - 特点:复杂表格/公式识别能力强,支持导出Markdown/Excel格式 --- ### 三、**编程实现(开发者适用)** ```python # 示例:Python + PyMuPDF + Tesseract import fitz # PyMuPDF import pytesseract from PIL import Image doc = fitz.open("input.pdf") for page in doc: pix = page.get_pixmap(dpi=200) # 设置分辨率 img = Image.frombytes("RGB", [pix.width, pix.height], pix.samples) text = pytesseract.image_to_string(img, lang='chi_sim+eng') # 中英混合 print(text) ``` **依赖库安装**: ```bash pip install PyMuPDF pytesseract # 需额外安装Tesseract本体:https://github.com/UB-Mannheim/tesseract/wiki ``` --- ### 四、**开源工具推荐** - **OCRmyPDF** (命令行工具) ```bash ocrmypdf --output-type pdf --language chi_sim input.pdf output.pdf ``` - **Umi-OCR** (Windows GUI):支持离线批量处理(GitHub开源项目) --- ### **注意事项** 1. **精度提升技巧**: - 扫描文件建议预处理:PS/画图工具调整对比度>300dpi - 复杂排版优先用Adobe/ABBYY 2. **隐私保护**:敏感内容建议使用离线工具(如Umi-OCR) 3. **特殊内容**:手写体识别推荐「腾讯云OCR」或「百度文字识别」API 根据文件复杂度、预算和隐私需求选择方案,常规办公推荐组合:微信快速识别+Adobe处理专业文档。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值