UTF8和GB编码的识别

最新推荐文章于 2023-09-06 13:36:17 发布

原创最新推荐文章于 2023-09-06 13:36:17 发布 · 584 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文详细介绍了UTF8编码的原理及其实现方式。包括如何通过一个字节到六个字节的不同组合来表示不同长度的字符，并提供了一个用于检测UTF8编码合法性的C语言函数示例。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

UTF8编码的原理
一个字节：0*******                            内容是 7位的时候就用一个字节，第一个0为标志位
二个字节：110***** 10******                   内容在 8 到 11 位，第一个字节的110和第二个字节的10为标志位
三个字节：1110**** 10****** 10******          内容在 12 到 16 位
四个字节：11110*** 10****** 10****** 10******
五个字节：111110** 10****** 10****** 10****** 10******
六个字节：1111110* 10****** 10****** 10****** 10****** 10******

int utf8( char *buf)　　　　//传进的是数组的指针：
{
char a= *buf,b;
int i,j;
for(i=7;i>1;i--) {　　　　　　//针对UTF8编码的特性，通过第一个字节判断在哪个序列中:
  b=a&(1<<i);
  if (b==0)
   break;
  if (i==1)
   return -1;
}

i=7-i;
for(j=1;j<i;j++) {　　　　　　　　//判断后几个字节是不是符合，
  a=buf[j];
  b=a&(1<<7);
  if(b==0)
   return -1;
  a=buf[j];
  b=(a>>6)&1;
  if(b!=0)
   return -1;
}
return i;　　　　　　　　　　//返回
}

有时候要注意大小端情况，这个应该不难：

int is_GB(char buf,char buf2)
{
buf = buf+127;
if(buf>=32) {
  buf2 = buf2+127;
  if(buf2>= 32)
   return 0;
}
return -1;
}

博客等级

码龄16年

19
原创

10
点赞

9
收藏

11
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

下一篇：: android 多屏幕的支持问题

最新评论

adnroid源码mms中composeMessageActivity中创建listview的一些分析
zqzhs: 大神您好，请问如果我想对某会话列表里的所有短信进行修改，又不想改动数据库里的内容，那该去hook那个类？？
Android获取图片大小以及获取指定大小的缩略图
西凉观云海: http://blog.sina.com.cn/s/blog_acf41ccb01017srv.html
Android获取图片大小以及获取指定大小的缩略图
NPE脑残粉: 试了一下内存溢出！
Android系统铃声音乐文件夹
leeboy_wang: 想往该文件夹下导入文件该如何处理？？？
Smbclient介绍
yetaot1986: 你好啊！看你的文章我知道了samba协议的库和这些用法！你在里面添加了libsmbclient.a的头文件，我编译出他的静态库是libsamclient.a,那么请问我用linux编译的静态库总是不可以用。。。我将他移植到arm上，调用了头文件和库，然后自己开发一个客户端！但是这些头文件里面好些函数不可以用啊！我想将这个协议移植别的设备上支持也不可以！请问如何编译出这个静态库呢？？？谢谢！

大家在看

Qwen-Image深度解析：突破文本渲染与图像编辑的视觉生成大模型 11719

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。