java中含中文字符串的编码和解码问题

本文详细解析了Java中中文字符串的编码与解码过程,包括常见编码方式的使用及乱码问题的解决方法,并提供了具体的编码转换示例。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

java中含中文字符串的编码和解码问题。



1、在java开发中经常被文字乱码的问题困扰。下面全面解释下字符串的编码和解码。

如 String str = "中国"

编码:byte[] bts = str.getBytes("编码方式");//常用编码方式 gbk、utf-8、gb2312、iso-8859-1等等。

解码:String b = new String(bts,"解码方式");//解码方式对应常用编码方式。


2、常识:正常(正常显示的字符串无乱码)解码后的字符串对象可以用任意方式编码。但解码要正常显示,必须用对应的编码方式解码。(对于中文要保证正常显示必须采用中文编码/解码方式)

如 String str = "中国";//这个就是正常显示的字符串

以下任意方式(中文)编码/解码-----------

String b1 = new String(str.getBytes("gbk"),"gbk");

String b2 = new String(str.getBytes("utf-8"),"utf-8");

String b3 = new String(str.getBytes("gb2312"),"gb2312");

以上三种方式的字符串对象都是采用中文方式编码/解码,所以都会是正常并无乱码。


3、当没采用对应方式解码时(也就是所谓的乱码)怎么转成正常显示而无乱码。

如 String str = "中国";

String b1 =  new String(str.getBytes("gbk"),"gbk");//这里的b1就是采用的gbk的方式解码的 ::::b1不会乱码的

String b2 = new String(b1.getBytes(),"utf-8");//这里对b1编码后的字节数组重新用utf-8而没有用对应的gbk方式解码。:::::b2将会是乱码的

以下开始将乱码转成正常显示

String b3 = new String(b2.getBytes("utf-8"),"gbk")//这里编码方式(utf-8)必须用上述b2的解码方式,而解码方式(gbk)必须用b1的解码方式。因为是b2把正常显示的b1解码成乱码。:::::::b3不会是乱码的。


在实际应用中出现的乱码,都是这个原因造成的,乱码不是不可逆的,上述步骤就是一个逆转的过程。

4常见应用举例。

在web开发中,tomcat对于传输的字符串都是采用iso-8859-1编码/解码方式。而客户端(浏览器端对于中文都是用gbk或utf-8中文编码/解码方式),所以传到后台都会是乱码的。容器一般都是有处理的,所以中文能正常显示和存储。但有些情况也是会出现乱码的,解决方式如下

String b = new String(str.getBytes("iso-8859-1","客户端的编码/解码方式")//中文解码方式一般用的是utf-8或者gbk。

如:

 String b1 = new String(str.getBytes("iso-8859-1","utf-8");


Java字符串所占字节数的小总结


首先,char为Java的基本类型,基本类型所占的字节数是固定的,如int占4字节,double占8字节,这可以使得Java在不同的平台上所占类型固定,很好地保证了Java的可移植性。因此,Java中char类型固定占2个字节。(注:char类型也可以存储一个汉字)。
其次,String采用一种更灵活的方式进行存储。在String中,一个英文字符占1个字节,而中文字符根据编码的不同所占字节数也不同。在UTF-8编码下,一个中文字符占3个字节;而使用GBK编码时一个中文字符占2个字节。测试代码如下:

import java.io.UnsupportedEncodingException;

public class StrTest {

    public static void main(String[] args) throws UnsupportedEncodingException {
        String str1 = "hello";
        String str2 = "你好abc";

        System.out.println("utf-8编码下'hello'所占的字节数:" + str1.getBytes("utf-8").length);
        System.out.println("gbk编码下'hello'所占的字节数:" + str1.getBytes("gbk").length);

        System.out.println("utf-8编码下'你好abc'所占的字节数:" + str2.getBytes("utf-8").length);
        System.out.println("gbk编码下你好'你好abc'所占的字节数:" + str2.getBytes("gbk").length);
    }

}

输出结果:
utf-8编码下’hello’所占的字节数: 5
gbk编码下’hello’所占的字节数: 5
utf-8编码下’你好abc’所占的字节数: 9
gbk编码下你好’你好abc’所占的字节数: 7

由此可见,对也String来说,一个英文字符固定占1个字节,而中文字符占2个(GBK编码)或3个(UTF-8编码)字节。也可使用此方法查看其它编码的情况,此处不再一一赘述。

最后,基于String的这种特性,可以判断一个字符串中是否包含中文,举例如下:

public class StrTest {

    public static void main(String[] args) throws UnsupportedEncodingException {
        searchChineseCharacter("Good morning");
        searchChineseCharacter("hello 早上好");
    }

    //找出一个字符串中的汉字
    public static void searchChineseCharacter(String str){
        //正则表达式,用于匹配中文字符
        String regex = "[\u4e00-\u9fa5]";

        //如果str的长度和其所占字节数不等,说明包含中文
        if (str.length() != str.getBytes().length){
            Pattern pattern = Pattern.compile(regex);
            Matcher matcher = pattern.matcher(str);
            System.out.print("'" + str + "' 中的汉字为:");

            while (matcher.find()){
                System.out.print(matcher.group());
            }
        }

        else {
            System.out.println("'" + str + "' 中无汉字");
        }
    }

}
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29

输出结果:
‘Good morning’ 中无汉字
‘hello 早上好’ 中的汉字为:早上好


### 如何在S7 PLC中写入字符串 为了实现向S7 PLC写入字符串的功能,可以利用Java中的`S7connector`库完成这一操作。以下是详细的说明以及代码示例。 #### 方法概述 要成功向S7 PLC写入字符串,需满足以下条件: 1. **PLC配置**:确保PLC已启用远程PUT/GET访问功能[^3]。 2. **数据类型匹配**:S7 PLC内部存储的数据是以字节形式存在的,因此需要将字符串转换为相应的字节数组后再进行写入。 3. **API调用**:使用`S7Connector`提供的接口函数执行具体的写入动作。 下面是一个完整的代码示例: ```java import com.github.s7connector.api.S7Area; import com.github.s7connector.impl.S7ConnectorFactory; public class S7PlcStringWriter { private static final String IP_ADDRESS = "192.168.1.2"; private static final int PORT = 102; /** * 向指定DB块的偏移位置写入字符串 * * @param dbNumber DB编号 * @param offset 偏移量(单位:字节) * @param value 要写入的字符串 */ public void writeStringToPlc(int dbNumber, int offset, String value) { try (var connector = S7ConnectorFactory.buildTCPConnector() .withHost(IP_ADDRESS) .withPort(PORT) .withTimeout(5000) .withRack(0) .withSlot(1) .build()) { byte[] bytes = convertStringToByteArray(value); connector.writeBytes(S7Area.DB, dbNumber, offset, bytes); } catch (Exception e) { System.err.println("写入失败:" + e.getMessage()); } } /** * 将字符串转换为适合PLC使用的字节数组 * * @param str 输入字符串 * @return 字节数组 */ private byte[] convertStringToByteArray(String str) { // 使用ISO-8859-1编码以适配西门子PLC字符集 return str.getBytes(java.nio.charset.StandardCharsets.ISO_8859_1); } } ``` 上述代码实现了以下几个核心功能: - 创建并初始化到PLC的连接[^1]。 - 定义了一个辅助方法用于将字符串转为字节数组,采用的是ISO-8859-1编码标准,这是由于S7 PLC通常支持这种简单的单字节编码方案。 - 提供了实际的字符串写入逻辑,其中涉及到了特定区域(`S7Area`)的选择、数据库(DB)号设定以及起始偏移地址定位等要素。 #### 关键注意事项 - 数据长度应严格控制在目标寄存器所能容纳范围内;超出部分会被截断或者引发错误。 - 如果遇到乱码现象,则可能是源程序与接收方之间存在不同的字符编码约定问题,此时应当统一双方都接受的标准编码格式。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值