|
软的那个臭屁的JOEL(就是写《JOEL说软件》的那个牛人)曾说:“每一位软件开发人员必须、绝对要至少具备UNICODE与字符集知识(没有任何例外)”,我也常常困扰于字符集的转换等很多问题,所以这次下决心要把他搞个清楚。
举一个例子 我们使用代码 string s = "梁"; byte[] unicode = Encoding.Unicode.GetBytes(s); byte[] utf8 =Encoding.UTF8.GetBytes(s); 用调试器可以看到 ![]() 这里在内存中的数据是由高到低排列的,104十六进制为68,129十六进制为81,也就是说"梁"的unicode是十六进制为6881,二进制为110100010000001,我们从上边的表中可以查到,6881应该属于地三行(800-FFFF),因此"梁"的UTF-8编码需要三个字节即格式是“1110xxxx 10xxxxxx 10xxxxxx”。然后,从“梁”的最后一个二进制位开始,依次从后向前填入格式中的x,多出的位补0。这样就得到了,“梁”的UTF-8编码是“111001101010001010000001”,按没8位转换成十进制就是230,162,129。正好和上图中utf8中的值一样。 六、C# UTF-8 转 GB2312 NET中内存中的字符串都是Unicode,所以测试程序在控制台应用程序下不好写,请大家根据如下代码自己来写吧: string UTF8ToGb2312(string str) { string gb2312info =string.Empty; Encoding utf8 = Encoding.UTF8; Encoding gb2312 = Encoding.GetEncoding("gb2312"); byte[] unicodeBytes = utf8.GetBytes(str); byte[] asciiBytes = Encoding.Convert(utf8, gb2312, unicodeBytes); char[] asciiChars =new char[gb2312.GetCharCount(asciiBytes, 0, asciiBytes.Length)]; gb2312.GetChars(asciiBytes, 0, asciiBytes.Length, asciiChars, 0); gb2312info =new string(asciiChars); return gb2312info; } 七、UTF8优点 UTF-8是世界通用的语言编码,如果在其他语言的操作系统下访问gb2312编码的网站,需要下载语言包,所以为了网站的通用性起见,用UTF8编码是更好的选择,但是相比较而言gb2312要比UTF-8得到的数据量少一些。 八、乱码问题: 如果在内存、文件或电子邮件中有一个字符串,那么应该知道它是使用什么编码方案,否则就不能将它正确的解释或显示给用户。如果在试图使用的编码方案中没有相应的编码值得等价内容,那么通常会显示一个小问号“?”,或者显示一个方框。NET中内存中的字符串都是Unicode,而asp.net程序默认是UTF-8编码,我们在使用某些字符串时出现了乱码,我们首先要判断是不是我们解释用的编码方式出错了。 |
c#研究--字符编码
最新推荐文章于 2025-12-12 23:48:08 发布
c#研究--字符编码

6204

被折叠的 条评论
为什么被折叠?



