不考虑字符编码,按字节截取含有中文汉字的字符串

本文介绍了一种按字节精确截取字符串的方法,确保不会截断半个汉字,并提供了适用于不同字符集(如UTF-8和GBK)的Java实现。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

要求实现一个按字节截取字符串的方法,比如对于字符串"我ZWR爱JAVA",截取它的前四位字节应该是"我ZW",而不是"我ZWR",同时要保证不会出现截取了半个汉字的情况。
英文字母和中文汉字在不同的编码格式下,所占用的字节数也是不同的。我下面这个就是不考虑字符集,就是说适用java的所有字符集。utf-8 时中文占3个字节,GBK时中文占两个字节。下面是我的代码:

package com.wmj.test;


public class MyTest {

public static void main(String[] args) {

String str1="我love 非常JAVA 呀 ";
System.out.println(getStringByByte(str1,8));

//System.out.println("当前编码集:"+new String(Charset.defaultCharset().toString()).equalsIgnoreCase("utf-8"));

}

public static String getStringByByte(String str1,int byteNum){
String strTemp = null;
byte[] bytes1=null;
byte[] bytes2 = null;
byte[] bytes3 = null;
String str2 = "c";
String str3 = "中";
char[] char1=null;
try {
bytes1=str1.getBytes();
bytes2 = str2.getBytes();
bytes3 = str3.getBytes();
char1=str1.toCharArray();
} catch (Exception e) {
}
int size1=bytes1.length;
int size2=bytes2.length;
int size3=bytes3.length;
System.out.println("一个字符所占字节数:" + size2);
System.out.println("一个中文字符所占字节数:" + size3);
if(size1<=byteNum){
return str1;
}else if(byteNum<0){
System.out.println("数字必须大于0:" + byteNum);
}

int count=0;
for(int i=0;i<char1.length;i++){
char ch=char1[i];
String str=String.valueOf(ch);
int chL=str.getBytes().length;
count+=chL;
if(count-byteNum==0){
strTemp=new String(char1,0,i+1);
break;
}else if(count-byteNum>0){
if(chL==size2){
strTemp=new String(char1,0,i);
break;
}else if(chL==size3){
strTemp=new String(char1,0,i+1);
break;
}
}
}

return strTemp;
}



}
内容概要:本文档详细介绍了一个基于MATLAB实现的跨尺度注意力机制(CSA)结合Transformer编码器的多变量时间序列预测项目。项目旨在精准捕捉多尺度时间序列特征,提升多变量时间序列的预测性能,降低模型计算复杂度与训练时间,增强模型的解释性和可视化能力。通过跨尺度注意力机制,模型可以同时捕获局部细节和全局趋势,显著提升预测精度和泛化能力。文档还探讨了项目面临的挑战,如多尺度特征融合、多变量复杂依赖关系、计算资源瓶颈等问题,并提出了相应的解决方案。此外,项目模型架构包括跨尺度注意力机制模块、Transformer编码器层和输出预测层,文档最后提供了部分MATLAB代码示例。 适合人群:具备一定编程基础,尤其是熟悉MATLAB和深度学习的科研人员、工程师和研究生。 使用场景及目标:①需要处理多变量、多尺度时间序列数据的研究和应用场景,如金融市场分析、气象预测、工业设备监控、交通流量预测等;②希望深入了解跨尺度注意力机制和Transformer编码器在时间序列预测中的应用;③希望通过MATLAB实现高效的多变量时间序列预测模型,提升预测精度和模型解释性。 其他说明:此项目仅提供了一种新的技术路径来处理复杂的时间序列数据,还推动了多领域多变量时间序列应用的创新。文档中的代码示例和详细的模型描述有助于读者快速理解和复现该项目,促进学术和技术交流。建议读者在实践中结合自己的数据集进行调试和优化,以达到最佳的预测效果。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值