
python
文章平均质量分 90
「已注销」
这个作者很懒,什么都没留下…
展开
-
python字符串模糊匹配 - RapidFuzz
之前已介绍了字符串模糊匹配的应用以及FuzzyWuzzy包的使用。目前使用较多的是运行速度更快的RapidFuzz,从名字即可看出其特点。RapidFuzz是一个使用python和C++编写的字符串匹配模块,使用了与FuzzyWuzzy相同的字符串相似度计算方法。RapidFuzz是MIT licensed,可在任何地方使用,而FuzzyWuzzy需要遵守GPL license;RapidFuzz提供更多字符串相似度计算方式,比如 hamming,jaro_winkler;原创 2022-09-15 21:46:34 · 3899 阅读 · 0 评论 -
python字符串模糊匹配 - FuzzyWuzzy
字符串模糊匹配在很多问题中有实际价值。比如NER或任何词条关联问题,将不规范的词条与标准词条进行链接匹配。在数据量大或包含关系复杂时,使用优秀的工具包可极大提升效率。FuzzyWuzzy既是这样一个可进行字符串模糊匹配的python包,根据Levenshtein Distance(也被称为Edit Distance,指两个字符串,有一个转换成另一个所需要的最少操作次数)计算字符串之间的差异。这在序列比对中也是很常用的算法。编辑距离越小,两个字符串相似度越高。原创 2022-09-11 16:51:30 · 11327 阅读 · 0 评论 -
python内存性能分析
之前遇到一些内存问题,把上面的大多数用了个遍,发现除了memory_profiler 能提供最直接的信息外,其他的并没有特殊的帮助。当然具体问题具体分析。原创 2022-08-30 23:27:09 · 3568 阅读 · 0 评论 -
python处理pdf文件
对pdf文件的常见操作需求包括读取pdf中的文字图表,新建或截取pdf,pdf与其他格式的转换等。通过代码可更灵活的实现各种功能需求。在众多可处理pdf的包中选择PyMuPDF进行介绍。PyMuPDF是MuPDF的python接口,可处理 的文件格式后缀包括 pdf,xps,oxps,cbz,fb2, epub。另外一些也可处理10余种常见图片格式,包括:png,jpg,bmp,tiff等。.........原创 2022-08-06 14:44:19 · 2263 阅读 · 0 评论 -
python多进程与多线程使用
关于多进程和多线程的详细介绍参考其他资料,这里仅列出一些显著特征,用于帮助实际使用时选择哪种方法。原创 2022-07-30 14:59:43 · 318 阅读 · 0 评论