关于编码的使用

原创于 2008-11-16 19:56:00 发布 · 575 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#string #byte #算法 #os #.net

随笔专栏收录该内容

1 篇文章

订阅专栏

部署运行你感兴趣的模型镜像

在这里并不介绍什么是编码，或者编码有哪些种类，这里只是介绍在开发过程中遇到的关于使用编码的体会。

中文汉字编码名称为gb2312或者936。汉字的占两个字节，英文字符占一个字节。

一个字节的值在0-255之间

ANSI：OS的编码，中文就是GB2312

unicode big endian FE FF 高位低位

unicode FF FE 低位高位

UTF-8：unicode 的传输格式。它是unicode经过特殊算法计算后形成的。

EF BB BF 表示这是一个UTF-8编码。

System.Text.Encoding 中Default属性可以获取OS使用的编码。

//在.NET中获得中文编码对象。

System.Text.Encoding gb = System.Text.Encoding.GetEncoding(936);

System.Text.Encoding gb2 = System.Text.Encoding.GetEncoding("gb2312");

在从文本文件中读取的时候，要指定读取时使用的编码，防止出现乱码。（！）这点很必要。

System.IO.StreamReader sr = new StreamReader("textFile.Txt",gb);

string msg = sr.ReadToEnd();

//将字符串转换为字节序列

byte[] gbByte = gb.GetBytes("中国汉字");

gb2312编码中的中文汉字占两个字节，首字节的编码值>=160。

应用实例一：

将字符串 "中国，你好！Hello,China!" 中的中文"中国，你好！"提取出来。

1.将字符串转换为字节序列。

2.判断值是否大于等于160，如果真则取出与之相邻的下一个字节。

总结：写的很乱。

您可能感兴趣的与本文相关的镜像

Stable-Diffusion-3.5

Stable-Diffusion-3.5

图片生成

Stable-Diffusion

Stable Diffusion 3.5 (SD 3.5) 是由 Stability AI 推出的新一代文本到图像生成模型，相比 3.0 版本，它提升了图像质量、运行速度和硬件效率

博客等级

码龄19年

13
原创

1
点赞

7
收藏

57
粉丝

关注

私信

热门文章

分类专栏

WinForm
其它 1篇
随笔 1篇

上一篇：: setInterval 和 setTimeout 的用法

下一篇：: Windows 7 SDK 下载地址

最新文章

AI算力推荐

Stable-Diffusion-3.5

Stable Diffusion 3.5 (SD 3.5) 是由 Stability AI 推出的新一代文本到图像生成模型，相比 3.0 版本，它提升了图像质量、运行速度和硬件效率

图片生成

Stable-Diffusion

目录

展开全部

收起

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。