
自然语言处理
文章平均质量分 92
学习康ing
一枚正在努力学习的大学生,想通过自己的努力学习更多有趣的知识
展开
-
文本分类聚类-基于规则的分词
基于规则的最大匹配方法是一种基于词典和规则的一种分词方法,最大的缺点是严重依赖词典,未登录词和分词歧义无法很好的处理。优点是方法简单,容易实现,速度快,有一定规模的词典效果可以满足基本需求。最大匹配方法包含正向最大匹配(MM)、逆向最大匹配(RMM)和双向最大匹配(BIMM)三种匹配方法。有想要自己去试一下最大正向匹配的或者双向匹配的也可以自己去试试,后面我会继续分享给大家。原创 2023-04-03 20:31:04 · 1404 阅读 · 0 评论 -
自然语言处理-拼写检查
拼写检查则是根据预设的编辑距离阈值,从英文词库中搜索最小编辑距离不超过阈值的所有单词,将其罗列出来作为候选项或是从所有符合条件的词中输出一个最有可能的词。最小编辑距离的含义为使一个字符串变成另外一个字符串而进行的插入、删除、更新或相邻字符交换位置而进行的最少操作次数。原创 2023-03-18 21:11:30 · 636 阅读 · 0 评论