今天遇到一个怪事,记录下来。
一个文本有很多中文单词。例如文本为 xx
sort xx 不能把相同的中文排在一起,有些是对的,有些是错的。
例如:
XXX
XXX
90后
XXX
XXX
90后
XXX
90后
XXX
排序后,应该得到
XXX
90后
90后
90后
XXX
但结果可能是
XXX
90后
XXX
90后
90后XXX
出现这个问题应该是有字符集造成。
我做了如下的修改,得到了正确的结果
我原来的配置
export LANG="zh_CN.UTF-8"
export LC_ALL="zh_CN.GBK"
修改后得到正确答案的配置
export LANG="zh_CN.UTF-8"
export LC_ALL="zh_CN.UTF-8"
要将LANG和LC_ALL统一起来,我暂时只知道这样改得到正确结果,来不及详细研究,就写到这里。
本文记录了一个在处理包含中文单词的文本时,使用sort命令进行排序时遇到的问题,以及通过调整字符集配置解决该问题的过程。具体包括原始配置导致的问题,以及修正配置后得到正确排序结果的方法。
1376

被折叠的 条评论
为什么被折叠?



