
NLP
文章平均质量分 94
「已注销」
这个作者很懒,什么都没留下…
展开
-
python字符串模糊匹配 - RapidFuzz
之前已介绍了字符串模糊匹配的应用以及FuzzyWuzzy包的使用。目前使用较多的是运行速度更快的RapidFuzz,从名字即可看出其特点。RapidFuzz是一个使用python和C++编写的字符串匹配模块,使用了与FuzzyWuzzy相同的字符串相似度计算方法。RapidFuzz是MIT licensed,可在任何地方使用,而FuzzyWuzzy需要遵守GPL license;RapidFuzz提供更多字符串相似度计算方式,比如 hamming,jaro_winkler;原创 2022-09-15 21:46:34 · 3899 阅读 · 0 评论 -
python字符串模糊匹配 - FuzzyWuzzy
字符串模糊匹配在很多问题中有实际价值。比如NER或任何词条关联问题,将不规范的词条与标准词条进行链接匹配。在数据量大或包含关系复杂时,使用优秀的工具包可极大提升效率。FuzzyWuzzy既是这样一个可进行字符串模糊匹配的python包,根据Levenshtein Distance(也被称为Edit Distance,指两个字符串,有一个转换成另一个所需要的最少操作次数)计算字符串之间的差异。这在序列比对中也是很常用的算法。编辑距离越小,两个字符串相似度越高。原创 2022-09-11 16:51:30 · 11327 阅读 · 0 评论 -
NLP标签不均衡的文本多分类
自然语言处理中,文本多分类是最常见的需求之一。如果标注数据量大且样本均衡,任选一个bert模型都能达到非常好的准确度。但实际应用中往往面临的是数据量小,标签不均衡,标注错误等各种预想之外但又普遍存在的问题。如何根据实际情况解决问题,获得不错的效果才是我们需要研究的。的详细用法及更多功能可参考官方文档,提供了简洁的使用方法。则提供了更灵活的与语义,文本搜索相关的API,可根据类型,选择对用的损失函数等。损失函数的选择对模型的准确度影响非常大。.........原创 2022-08-10 21:22:04 · 906 阅读 · 0 评论