在sql server -2005查询分析器里的执行以下语句:
select unicode('郎'),unicode('郎'),unicode('郞')
select Nchar(37070),Nchar(63788),Nchar(37086)
看到了什么?三个看上去完全相同的“郎”,实际上是三个不同的字(unicode码不同)。这说明了,各种程序,实际上在复制、粘贴、传输、存储、显示字符的时候,实际上都是在操作字符背后的编码。
今天遇到了一个例子,在将数据库表存储的汉字字典数据取到asp.net 的datatable时,如果在网页里指定datatable的主健是“字" 这一列,就会出现
这些列当前不具有唯一值。
的异常。经检测,原来是前台系统把 63788(郎)和37070(郎)认为了是同一字符所致。不解系统为什么这么处理。
同样,经检测还有以下几组字符外观完全一样、但是实际上是不同unicode编码、却被asp.net的datatable错识别为相同
35023裏和63975裏
20937凉和63865凉
38563隣和63985隣
31178秊和63893秊