对字符串操作的一些研究-优快云博客

博客介绍了CLR中字符串由16位Unicode码值组成，虽方便字符转换，但呈现时可能浪费空间。阐述了UTF - 16、UTF - 8、ASCII等编码方式特点，指出应用中应尽量用UTF - 8或UTF - 16，还提及.NET可编码到指定代码页，最后说明不同编码各有优劣，需依应用场合选择。

首先，在CLR中所有的字符都被表示为16位的Unicode码值，所有的字符串都是由16位的Unicode码值组成。

16位的Unicode编码可以表示当今世界上的所有字符，所以，不必为字符的不同而担心保存的方式，这给字符的转换会很方便。

但是字符串保存在CLR中，如果我们需要呈现出来，比如写入文本文件，写入网络流，如果按照这样的方式，可能会很浪费空间，比如是英文字符就不需要这么宽的长度来保存，并且对于特定的字符集，比如中文字符集，这些是需要特定的代码页来编码的，如GB2312等等。

编码方式主要有：

UTF-16：一个16为字符编码为两个字节，性能最好，但是占用空间较大。

UTF-8：按需分配字节数。

ASCII：单字节编码，只适用于英文字符。

UTF-8：当今世上最流行的编码方式，它可以按照码值灵活安排字节数，也就是存储空间。所以我们在应用的时候应该尽量使用UTF-8或UTF-16这样的编码方法来进行字符串的编码。因为这样很安全，不会出现不认识的字符。 UTF16把16位字符编码为2个字节，而UTF8则有四种可能，比如英文字符他会编码为一个字节，一些欧洲和中东语言，它会编码为两个字节，一些东亚地区的语言它会编码成三个字节，代理字符会被转换为4个字节。

当然.NET还允许把字符编码到指定的代码页中，比如GB2312。但是一旦出现指定代码页中没有的字符，将不能正确呈现。

见下面代码：