获取Unicode中所有汉字和标点

最新推荐文章于 2024-06-03 14:44:36 发布

原创最新推荐文章于 2024-06-03 14:44:36 发布 · 1.4k 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#unicode

others 专栏收录该内容

24 篇文章

订阅专栏

本文详细介绍了如何在不同进制之间进行转换，包括十六进制、八进制和二进制到十进制的转换，以及使用Python内置函数实现这一过程的方法。同时，深入探讨了字符编码，包括获取字符的Unicode编码和从编码还原字符，以及中日韩汉字的Unicode编码范围。

进制互转

转其他进制：
hex(<数字>)
oct(<数字>)
bin(<数字>)

转10进制：
int(’<数字>’,<整数,表示前面一个参数进制数>)

如：

int('10',2)
int('10',8)
int('10',16)
int('0o21',8)
hex(16)
oct(16)
bin(16)

获取字符编码序号

ord(“<字符>”)
chr(<数字>)

ord('一')
Out[148]: 19968
ord("\u4e00")
Out[157]: 19968
chr(19968)
Out[150]: '一'

unicode汉字集

\u4e00 - \u9FFF的是中日韩汉字字符区间。其中
\u4e00 -\u9fd5 是所有汉字，剩下的没有字符。

"\u4e00"
Out[151]: '一'
"\u9fd5"
Out[152]: '鿕'

中日韩汉字 Unicode 编码表

汉字标点

[
    8211, 8212, 8216, 8217, 8220, 8221, 
    8230, 12289, 12290, 12296, 12297, 12298, 
    12299, 12300, 12301, 12302, 12303, 12304, 
    12305, 12308, 12309, 65281, 65288, 65289, 
    65292, 65294, 65306, 65307, 65311
]

参考

英文和数字

48-57 表示0-9
65-90 表示A-Z
97-122 表示a-z

符号unicode对应分段

点击我见表

如英文标点

for i in range(ord('\uff01'),ord("\uff0f")+1):
    print(chr(i))

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

明天,今天,此时

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Python处理中文标点符号大集合

09-20

在Python中处理中文标点符号，需要注意其来源多样性和匹配复杂性。本文提供了一些使用Python处理中文标点符号的方法和技巧。首先，要处理中文标点符号，我们可以利用Python的正则表达式库`re`进行模式匹配。在处理...

js实现正则匹配中文标点符号的方法

10-23

- JavaScript函数`checkText`通过获取输入框的值，并利用正则表达式`reg`检查该值是否为中文标点符号。 - 正则表达式`var reg=/[\u3002|\uff1f|\uff01|\uff0c|\u3001|\uff1b|\uff1a|\u201c|\u201d|\u2018|\u2019|\...

参与评论您还未登录，请先登录后发表或查看评论

Unicode编码查询器

11-28

可查看超长字符串对应的Unicode编码和对应的十六进制数据，非常便捷不用到处去记去查

MyEclipse8.x工具获取汉字Unicode编码的方法

whtsupers的专栏

03-02

181

MyEclipse8.x工具获取汉字Unicode编码的方法如下：首先创建一个p.properties文件，然后点击Properties页面，在页面的右边栏点击Add按钮，之后就会弹出一个"Add Property"的对话框，在对话框栏下面出现Name*属性和Value属性值，分别填上属性名和属性值（填上中文汉字），比如：Name*=p， value=汉字，最后点击Finish按钮，这样就完成...

汉字的unicode码范围是多少?

slqgenius的博客

08-03

5869

https://www.cnblogs.com/zhoug2020/p/3372260.html unicode码的分布情况，够清楚了吧！不仅汉字，什么都有了！ ******************************************************* 0000..007F; Basic Latin 0080..00FF; Latin-1 Supplement 0100..017F; Latin Extended-A 0180..024F; ...

CSS unicode-range特定字符使用font-face自定义字体

p312011150的博客

04-02

7236

一、unicode-range是什么？一看名称，很多小伙伴可能认为是个什么生僻的东西，实际上，这玩意只是名字怪怪的，功能关键时刻还是很管用的。unicode-range是一个CSS属性，一般和@font-face规则一起使用。大家应该不赶时间吧，那我们一点一点往下深入，现在很多网站会使用微软雅黑字体，但是，微软雅黑的名称有点长：.font { font-family: 'microsoft...

寻找所有Unicide汉字程序

笑风生

09-08

1036

#include #include #include #include #include using namespace std;int main(){ //wchar_t ch = L你; //0x4f60 //wchar_t ch2 = (wchar_t)0x4f60; //setlocale(LC_ALL ,"chs"); ///

Java判断中英文符号、标点的实现

08-29

判别中文标点符号可以根据UnicodeBlock来判断，因为中文的标点符号主要存在于以下5个UnicodeBlock中：U2000-General Punctuation（百分号，千分号，单引号，双引号等）、U3000-CJK Symbols and Punctuation（顿号，...

统计字符串中汉字、字母、数字、英文标点、中文标点个数

07-04

在Python中，我们可以使用内置的`str`类的`isalpha()`、`isdigit()`、`isspace()`等方法来判断字符类型，或者使用`ord()`函数获取字符的Unicode编码来识别中文和中文标点。以下是一个简单的实现示例： ```python ...

JS正则表达式提取字符串中所有汉字的脚本

10-30

通过上述示例可以看出，利用JavaScript的正则表达式和`replace()`方法，可以非常方便地从任意字符串中提取所有汉字。这种方法简单有效，适用于多种场景。需要注意的是，正则表达式的灵活性很高，根据具体需求的不同...

python 判断〇是否在\u4e00-\u9fff范围内

最新发布

颹蕭蕭

06-03

1436

在Unicode编码中，\u4e00-\u9fff范围代表了中日韩统一表意文字（CJK Unified Ideographs），这个范围包含了大部分的汉字。要判断一个字符是否在这个范围内，可以使用编程语言中的字符编码函数。函数获取该字符的Unicode编码，然后检查这个编码是否在\u4e00-\u9fff范围内。，并不在\u4e00-\u9fff范围内。以下是一个使用Python语言的示例代码，用于判断字符。实际上是一个中日韩兼容表意文字，其Unicode编码是。如果你需要判断的是其他字符，只需将。

python

qq_45224707的博客

11-18

1517

学习笔记在python中所有中文字符的编码范围都处于“\u4e00”到“\u9fff”之间 title() 以首写字母大写显示每个单词，即将每个单词的首字母都改为大写 .upper() 将全部字符串改成大写形式 .lower() 将全部字符串改成小写形式 + 拼接字符串 \t 在字符串中添加制表符 \n 在字符串中添加换行符 .rstrip() 暂时删除字符串末尾的空格字符，要永久删除字符串末尾的空白，必须将...

常用汉字的unicode 编码

weixin_33859231的博客

11-27

1万+

为什么80%的码农都做不了架构师？>>> ...

用正则表达式匹配汉字，完整总结

weixin_30780649的博客

04-25

2297

提到用正则表达式匹配汉字，很容易搜到这个[\u4e00-\u9fa5]，但是它不算全面，不包含一些生僻汉字。本文对此问题做一个梳理。以下是比较全面的汉字Unicode分布，参考Unicode 10.0标准（2017年6月发布）：区块范围实际汉字个数/备注正则式 CJK统一汉字 4E00-62FF, 6300-77FF, 7...

正则表达式笔记

热爱技术

04-06

2801

正则表达式其实只需要会用一些常用的的字符匹配规则,就能够写出大多数的字符匹配规则,下面就直接介绍一下常用正则表达式的匹配： .--匹配任意一个字符 X*--表示字符X出现了0次或者多次 X+--表示字符X出现了1次或者多次 X?--表示字符X出现0次或者1次 // .表示任意一个字符(a字符是否匹配.) System.out.println("a".matches("

“[^\u4e00-\u9fa5]+“是什么意思

qq_44165157的博客

01-06

3万+

“\u4e00”和“\u9fa5”是unicode编码，并且正好是中文编码的开始和结束的两个值，所以这个正则表达式可以用来判断字符串中是否包含中文。正则表达式是对字符串操作的一种逻辑公式，就是用事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符串”，这个“规则字符串”用来表达对字符串的一种过滤逻辑。 "[^\u4e00-\u9fa5]+“含义为： 1、至少匹配一个汉字的写法。 2、这两个unicode值正好是Unicode表中的汉字的头和尾。 3、”[]"代表里边的值出现一个就可以，后边的

Python：字符中文判断及编码识别

GIS摆渡人

12-05

1407

python在执行代码过程是不知道这个字符是什么意思的、是否是中文，而是把所有代码翻译成二进制也就是000111这种形式，机器可以看懂的语言。　　也就是在计算机中所有的字符都是有数字来表示的。汉字也是有数字表示的，Unicdoe4E00~9FFF表示中文，所以如果一个字符的utf-8编码在这个区间内，就说明它是中文。1. 判断utf-8 代码如下： 2. 测试用例：结果： True False True3. 判断字符包含中文：小结参考： https://blog.youkuaiyun.com/QFire/arti

通过javascript进行UTF-8编码

weixin_33825683的博客

06-24

622

通过javascript进行UTF-8编码 javascript的字符集： javascript程序是使用Unicode字符集编写的。Unicode是ASCII和Latin-1的超集，并支持地球上几乎所有的语言。ECMAScript3要求JavaScript必须支持Unicode2.1及后续版本，ECMAScript5则要求支持Unic...

python字符串编码及乱码解决方案