
Unicode和编码
fmddlmyy
伐木丁丁鸟鸣嘤嘤
展开
-
谈谈Windows程序中的字符编码
写这篇文章的起因是这么一个问题:我们在使用和安装Windows程序时,有时会看到以“2052”、“1033”这些数字为名的文件夹,这些数字似乎和字符集有关,但它们究竟是什么意思呢?研究这个问题的同时,又会遇到其它问题。我们会谈到Windows的内部架构、Win32 API的A/W函数、Locale、ANSI代码页、与字符编码有关的编译参数、MBCS和Unicode程序、资源和乱码等,一起经历这原创 2005-06-21 20:03:00 · 13457 阅读 · 7 评论 -
安装程序(例如Acrobat)的乱码问题
安装程序(例如Acrobat)的乱码问题1 问题和解决办法前天,在单位装过Acrobat 7.0(转换PDF时可以自动建立索引、链接),回家也想装一下。但执行安装程序时出现乱码。奇怪,单位装是好的啊。我当时没想明白怎么回事。昨天又找到Acrobat 8.0在家里安装,执行安装程序时还是出现乱码。上网查一下,才知道原因。原来这是因为我安装、使用过AppLocale。只要将“C:/WI原创 2008-06-14 07:15:00 · 3897 阅读 · 2 评论 -
cnbook/TextPro6应用1:“字符实体”类型邮件乱码的分析
cnbook/TextPro6应用1:“字符实体”类型邮件乱码的分析假设你收到一封邮件,邮件的内容是:À´ÐÅÊÕµ½£¬Ð»Ð»你能分析出这封邮件其实是在说“来信收到,谢谢”吗?本文讨论了这种乱码的由来,介绍了一种简单的解码方法原创 2008-05-25 21:27:00 · 2746 阅读 · 1 评论 -
CodeView:快速查看文本编码
CodeView:快速查看文本编码最近写了一个查看文本编码的小工具CodeView,发布出来与大家共享。CodeView是免费、绿色软件,大家可以自由使用。我在工作中经常需要查看几个字的编码,或者查看几个编码对应的字符,所以写了这个工具。用户可以在文本栏输入文本,或者在编码栏输入对应的编码。在您输入的同时,其它各栏会同步变化。输入编码格式是固定的:必须用两个16进制数字表示一个字节。每原创 2008-05-14 22:53:00 · 6923 阅读 · 10 评论 -
GB18030编码研究以及GBK、GB18030与Unicode的映射
GB18030编码研究以及GBK、GB18030与Unicode的映射GB18030有两个版本:GB18030-2000和GB18030-2005。在本文中,没有指明版本的GB18030是指GB18030-2005。本文讨论了以下问题: GB2312有682个图形符号,都放在1区。GBK的1区有717个图形符号,5区有166个图形符号,一共有883个图形符号。GB18030的1区原创 2008-04-13 11:29:00 · 11244 阅读 · 10 评论 -
Unicode、GB2312、GBK和GB18030中的汉字
GB18030有两个版本:GB18030-2000和GB18030-2005。GB18030-2000是GBK的取代版本,它的主要特点是在GBK基础上增加了CJK统一汉字扩充A的汉字。GB18030-2005的主要特点是在GB18030-2000基础上增加了CJK统一汉字扩充B的汉字。本文数一数GB18030中的汉字,也顺便看看其它标准中的汉字。 1 Unicode中的汉字在Unicode原创 2007-11-05 20:58:00 · 18415 阅读 · 12 评论 -
浅谈文字编码和Unicode(下)
浅谈文字编码和Unicode(下)3 字符编码模型程序员经常会面对复杂的问题,而降低复杂性的最简单的方法就是分而治之。Peter Constable在他的文章"Character set encoding basics Understanding character set encodings and legacy encodings"中描述了字符编码的四层模型。我觉得这种说法确实可以更清原创 2007-02-14 21:39:00 · 16952 阅读 · 9 评论 -
浅谈文字编码和Unicode(上)
浅谈文字编码和Unicode(上)我曾经写过一篇《谈谈Unicode编码,简要解释UCS、UTF、BMP、BOM等名词》(以下简称《谈谈Unicode编码》),在网上流传较广,我也收到不少朋友的反馈。本文探讨《谈谈Unicode编码》中未介绍或介绍较少的代码页、Surrogates等问题,补充一些Unicode资料,顺带介绍一下我最近编写的一个Unicode工具:UniToy。本文虽然是前文的原创 2007-02-14 21:31:00 · 17961 阅读 · 8 评论 -
谈谈Unicode编码,简要解释UCS、UTF、BMP、BOM等名词
这是一篇程序员写给程序员的趣味读物。所谓趣味是指可以比较轻松地了解一些原来不清楚的概念,增进知识,类似于打RPG游戏的升级。整理这篇文章的动机是两个问题:问题一: 使用Windows记事本的“另存为”,可以在GBK、Unicode、Unicode big endian和UTF-8这几种编码方式间相互转换。同样是txt文件,Windows是怎样识别编码方式的呢?我很早前就发现Unicod原创 2005-05-04 21:19:00 · 34710 阅读 · 42 评论