自然语言处理
文章平均质量分 75
firebuggy
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
2013版通用规范汉字列表(共8105字)
整理纯字版2013年《通用规范汉字表》,收录一级汉字3500字,二级汉字3000字,三级汉字1605字,共计8105字。可用于NLP相关数据处理等。原创 2024-12-03 11:19:39 · 2605 阅读 · 0 评论 -
最完整汉字简繁/简异对照表(目前已整合4096组)
提供了4096组简体字-繁体字/异体字的对照表,来源于多个数据集,并进行整合去重,大概是目前市面上最完整的简繁对照词典。本表可用于中文简-繁转换程序原创 2025-03-09 00:24:51 · 2643 阅读 · 0 评论 -
3500个常用汉字列表
常用汉字列表原创 2017-10-12 16:32:26 · 58830 阅读 · 9 评论 -
常用汉字笔画列表
收集了20901个汉字的字符笔画数对照表。用于自然语言处理,机器学习特征值参数。原创 2019-08-10 01:30:15 · 63188 阅读 · 0 评论 -
ANSJ词性标注集
ANSJ词性标注集转载 2017-10-12 16:34:52 · 2142 阅读 · 0 评论 -
ICTCLAS2008汉语词性标注集
ICTCLAS2008 计算所汉语词性标记集Version 3.0转载 2017-10-12 16:40:37 · 1371 阅读 · 0 评论 -
HTML字符转义列表
常用表 字符 文字转义符 10进制转义符 16进制转义符 描述 “ " " " 英文双引号 & & & & &符号 < < < < 小于号/左尖括号 > > > > 大于号/右尖括号 &nb转载 2017-11-03 14:58:45 · 2396 阅读 · 0 评论 -
C# 下繁体字与简体字的转化
C# 下繁体字与简体字的转化C#下虽然可以采用Microsoft.VisualBasic.Strings.StrConv()函数进行繁简转化(参考此文),但是存在转化不完全的问题。主要是部分异体字无法转化。 因此,我们根据异体字整理表和繁简字对照表来构建辅助字典,用于将未能成功转化的异体字或繁体字转化为简体字。 格式化的文档v2t.txt和s2t.txt放在了Github中。1. RemoveV原创 2017-10-11 13:48:17 · 1577 阅读 · 0 评论
分享