python Unicode的转码方法及汉字范围的讨论

Unicode的编码方式参见:
https://blog.youkuaiyun.com/m372897500/article/details/37592543

十进制 十六进制 字符数 编码分类(中文) 编码分类(英文)
起始 终止 起始 终止 (个)
0 127 0000 007F 128 C0控制符及基本拉丁文 C0 Control and Basic Latin
128 255 0080 00FF 128 C1控制符及拉丁文补充-1 C1 Control and Latin 1 Supplement
256 383 0100 017F 128 拉丁文扩展-A Latin Extended-A
384 591 0180 024F 208 拉丁文扩展-B Latin Extended-B
592 687 0250 02AF 96 国际音标扩展 IPA Extensions
688 767 02B0 02FF 80 空白修饰字母 Spacing Modifiers
768 879 0300 036F 112 结合用读音符号 Combining Diacritics Marks
880 1023 0370 03FF 144 希腊文及科普特文 Greek and Coptic
1024 1279 0400 04FF 256 西里尔字母 Cyrillic
1280 1327 0500 052F 48 西里尔字母补充 Cyrillic Supplement
1328 1423 0530 058F 96 亚美尼亚语 Armenian
1424 1535 0590 05FF 112 希伯来文 Hebrew
1536 1791 0600 06FF 256 阿拉伯文 Arabic
1792 1871 0700 074F 80 叙利亚文 Syriac
1872 1919 0750 077F 48 阿拉伯文补充 Arabic Supplement
1920 1983 0780 07BF 64 马尔代夫语 Thaana
1984 2047 07C0 07FF 64 西非書面語言 N’Ko
2048 2143 0800 085F 96 阿维斯塔语及巴列维语 Avestan and Pahlavi
2144 2175 0860 087F 32 Mandaic Mandaic
2176 2223 0880 08AF 48 撒马利亚语 Samaritan
2304 2431 0900 097F 128 天城文书 Devanagari
2432 2559 0980 09FF 128 孟加拉语 Bengali
2560 2687 0A00 0A7F 128 锡克教文 Gurmukhi
2688 2815 0A80 0AFF 128 古吉拉特文 Gujarati
2816 2943 0B00 0B7F 128 奥里亚文 Oriya
2944 3071 0B80 0BFF 128 泰米尔文 Tamil
3072 3199 0C00 0C7F 128 泰卢固文 Telugu
3200 3327 0C80 0CFF 128 卡纳达文 Kannada
3328 3455 0D00 0D7F 128 德拉维族语 Malayalam
3456 3583 0D80 0DFF 128 僧伽罗语 Sinhala
3584 3711 0E00 0E7F 128 泰文 Thai
3712 3839 0E80 0EFF 128 老挝文 Lao
3840 4095 0F00 0FFF 256 藏文 Tibetan
4096 4255 1000 109F 160 缅甸语 Myanmar
4256 4351 10A0 10FF 96 格鲁吉亚语 Georgian
4352 4607 1100 11FF 256 朝鲜文 Hangul Jamo
4608 4991 1200 137F 384 埃塞俄比亚语 Ethiopic
4992 5023 1380 139F 32 埃塞俄比亚语补充 Ethiopic Supplement
5024 5119 13A0 13FF 96 切罗基语 Cherokee
5120 5759 1400 167F 640 统一加拿大土著语音节 Unified Canadian Aboriginal Syllabics
5760 5791 1680 169F 32 欧甘字母 Ogham
5792 5887 16A0 16FF 96 如尼文 Runic
5888 5919 1700 171F 32 塔加拉语 Tagalog
5920 5951 1720 173F 32 Hanunóo Hanunóo
5952 5983 1740 175F 32 Buhid Buhid
5984 6015 1760 177F 32 Tagbanwa Tagbanwa
6016 6143 1780 17FF 128 高棉语 Khmer
6144 6319 1800 18AF 176 蒙古文 Mongolian
6320 6399 18B0 18FF 80 Cham Cham
6400 6479 1900 194F 80 Limbu Limbu
6480 6527 1950 197F 48 德宏泰语 Tai Le
6528 6623 1980 19DF 96 新傣仂语 New Tai Lue
6624 6655 19E0 19FF 32 高棉语记号 Kmer Symbols
6656 6687 1A00 1A1F 32 Buginese Buginese
6688 6751 1A20 1A5F 64 Batak Batak
6784 6895 1A80 1AEF 112 Lanna Lanna
6912 7039 1B00 1B7F 128 巴厘语 Balinese
7040 7088 1B80 1BB0 49 巽他语 Sundanese
7104 7167 1BC0 1BFF 64 Pahawh Hmong Pahawh Hmong
7168 7247 1C00 1C4F 80 雷布查语 Lepcha
7248 7295 1C50 1C7F 48 Ol Chiki Ol Chiki
7296 7391 1C80 1CDF 96 曼尼普尔语 Meithei/Manipuri
7424 7551 1D00 1D7F 128 语音学扩展 Phonetic Extensions
7552 7615 1D80 1DBF 64 语音学扩展补充 Phonetic Extensions Supplement
7616 7679 1DC0 1DFF 64 结合用读音符号补充 Combining Diacritics Marks Supplement
7680 7935 1E00 1EFF 256 拉丁文扩充附加 Latin Extended Additional
7936 8191 1F00 1FFF 256 希腊语扩充 Greek Extended
8192 8303 2000 206F 112 常用标点 General Punctuation
8304 8351 2070 209F 48 上标及下标 Superscripts and Subscripts
8352 8399 20A0 20CF 48 货币符号 Currency Symbols
8400 8447 20D0 20FF 48 组合用记号 Combining Diacritics Marks for Symbols
8448 8527 2100 214F 80 字母式符号 Letterlike Symbols
8528 8591 2150 218F 64 数字形式 Number Form
8592 8703 2190 21FF 112 箭头 Arrows
8704 8959 2200 22FF 256 数学运算符 Mathematical Operator
8960 9215 2300 23FF 256 杂项工业符号 Miscellaneous Technical

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值