记录文本相似度计算中fuzzywuzzy,simhash的安装使用。。。
安装流程
- 有git的情况
git clone git://github.com/seatgeek/fuzzywuzzy.git fuzzywuzzy
cd fuzzywuzzy
python setup.py install - 无git的情况
下载zip包解压
命令行进入文件夹下install
重启pyCharm

使用方法
#导入模块
from fuzzywuzzy import fuzz
#选取数据中的question1和question2
df_data=df_train[['question1','question2']]
#分别对每一行的question1和question2计算fuzz的结果
df_fuzz['fuzz_qratio'] = df_data.apply(lambda row: fuzz.QRatio(str(row['question1']),

本文档记录了fuzzywuzzy和simhash这两个文本相似度计算库的安装过程。对于有git环境的用户,可以通过git clone命令获取源码并安装;若无git,可下载zip包解压后进行安装。安装完成后需重启pyCharm以使更改生效。
最低0.47元/天 解锁文章
2028

被折叠的 条评论
为什么被折叠?



