
编码
文章平均质量分 78
johnny_83
占略
展开
-
汉字区位码表
(0101) 、(0102) 。(0103) ·(0104) ˉ(0105) ˇ(0106) ¨(0107) 〃(0108) 々(0109) —(0110) ~(0111) ‖(0112) …(0113) ‘(0114) ’(0115) “(0116) ”(0117) 〔(0118) 〕(0119) 〈(0120) 〉(0121) 《(0122) 》(01原创 2007-07-22 08:18:00 · 52232 阅读 · 0 评论 -
Unicode,UTF-8,GB2312编码的识别
Unicode,UTF-8,GB2312编码的识别 在UCS编码中有一个叫做"ZERO WIDTH NO-BREAK SPACE"的字符,它的编码是FEFF。而FFFE在UCS中是不存在的字符,所以不应该出现在实际传输中。UCS规范建议我们在传输字节流前,先传输字符"ZERO WIDTH NO-BREAK SPACE"。这样如果接收者收到FEFF,就表明这个字节流是Big-Endian的原创 2007-07-24 07:49:00 · 2711 阅读 · 2 评论 -
UTF-8与GB2312之间的互换
WinAPI的两个函数:WideCharToMultiByte、MultiByteToWideChar。函数原型: int WideCharToMultiByte( UINT CodePage, // code page DWORD dwFlags, // performance and mapping flags LPCWSTR lpWideCharStr, // wide-characte原创 2007-07-24 07:41:00 · 1105 阅读 · 0 评论 -
Unicode编码简要解释UCS/UTF/BMP/BOM
问题一: 使用Windows记事本的“另存为”,可以在GBK、Unicode、Unicode big endian和UTF-8这几种编码方式间相互转换。同样是txt文件,Windows是怎样识别编码方式的呢?我很早前就发现Unicode、Unicode big endian和UTF-8编码的txt文件的开头会多出几个字节,分别是FF、FE(Unicode),FE、FF(Unicode bi原创 2007-07-24 08:02:00 · 831 阅读 · 0 评论 -
汉字编码问题
由于常常要和汉字处理打交道,因此,我常常受到汉字编码问题的困扰。在不断的打击与坚持中,也积累了一点汉字编码方面的经验,想和大家一起分享。一、汉字编码的种类 汉字编码中现在主要用到的有三类,包括GBK,GB2312和Big5。 1、GB2312又称国标码,由国家标准总局发布,1981年5月1日实施,通行于大陆。新加坡等地也使用此编码。它是一个简化字的编码规范,当然也包括其他的符号、字母、原创 2007-07-22 08:14:00 · 146506 阅读 · 0 评论 -
如何读取文件夹下的所有文件名
System.IO; FileInfo DirectoryInfousing System; using System.IO; public class NameTest { public static void Main() {原创 2007-07-22 09:01:00 · 1220 阅读 · 0 评论 -
如何在C++中使用unicode编码
char * input = "大家好, World!"; int cd = iconv_open("utf8", "gb2312"); int il = strlen(input); int bufl = il * 3 + 1; char * output = (char *)calloc(bufl, sizeof(char)); char * p = output; int oleft = b原创 2007-07-22 08:20:00 · 3515 阅读 · 0 评论 -
谈谈Unicode编码,简要解释UCS、UTF、BMP
这是一篇程序员写给程序员的趣味读物。所谓趣味是指可以比较轻松地了解一些原来不清楚的概念,增进知识,类似于打RPG游戏的升级。整理这篇文章的动机是两个问题:问题一: 使用Windows记事本的“另存为”,可以在GBK、Unicode、Unicode big endian和UTF-8这几种编码方式间相互转换。同样是txt文件,Windows是怎样识别编码方式的呢?我很早前就发现Unicode、Unic原创 2007-07-22 08:19:00 · 896 阅读 · 0 评论 -
UTF-8编码规则
UTF-8是一种变长字节编码方式。对于某一个字符的UTF-8编码,如果只有一个字节则其最高二进制位为0;如果是多字节,其第一个字节从最高位开始,连续的二进制位值为1的个数决定了其编码的位数,其余各字节均以10开头。UTF-8最多可用到6个字节。 如表:因此UTF-8中可以用来表示字符编码的实际位数最多有31位,即上表中x所表示的位。除去那些控制位(每字节开头的10等),这些x表示的位与UN原创 2007-07-24 07:56:00 · 2047 阅读 · 0 评论 -
Unicode 的编码和实现
Unicode(萬國碼、統一碼)是一种在计算机上使用的字符编码。它为每种语言中的每个字符设定了统一并且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求。1990年开始研发,1994年正式公布。随着计算机工作能力的增强,Unicode也在面世以来的十多年里得到普及。 最新版本的 Unicode 是 2005年3月31日推出的Unicode 4.1.0 。 Unicode 的编码和实原创 2007-07-24 08:19:00 · 948 阅读 · 0 评论