包含中文的字符串中len的长度问题

博客主要讲述在Golang中截取包含中文的字符串时出现的问题。由于Golang中string底层通过byte数组实现,默认编码为utf - 8,中文字符占3个字节,导致截取结果与目标相差大。解决办法是将字符串转化为rune类型再截取,还介绍了byte和rune的特点。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

在截取包含中文的字符串的时候,发现截取出来的字符串比目标字符串相差太多。

golang中string底层是通过byte数组实现的。

中文字符在unicode下占2个字节,在utf-8编码下占3个字节,而golang默认编码正好是utf-8。

于是做了一下转化:

con := []rune(trimHtml(result.Content))//将字符串转化为rune类型的
		if len(con) > 50 {
			con = con[:50]//截取自己想要的长度
		}
		result.Content = string(con)//再转化为string类型

将字符串转化为rune类型的;然后再进行截取

1、type 占一个字节

2、rune 英文占一个字节,中文占三个字节

3、string底层是用byte数组存的,并且是不可以改变的。 

4、在 Go 中,字符串是以 UTF-8 为格式进行存储的,在字符串上调用 len 函数,取得的是字符串包含的 byte 的个数。

  • byte 等同于int8,常用来处理ascii字符
  • rune 等同于int32,常用来处理unicode或utf-8字符

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值