| jieba | snownlp | |
|---|---|---|
| star | 10k+ | 2k+ |
| 分词模式 | 精确模式:试图最精确分词;全模式:可以成词都扫描,但不能解决歧义;搜索引擎模式:在精确模式基础上再划分长词,用于搜索引擎分词; | 只处理unicode编码 |
| 词性标注 | 有 | 有 |
| 关键词抽取 | TF-IDF | 有 |
| 情感分析 | 无 | 有 |
| 文本相似度计算 | 无 | BM25 |
- jieba
基于前缀词典识别词汇,生成句子中所有可能成词但DAG有向无环图
DP查找最大概率路径,找出基于词频但最大切分组合
对于未登陆词,基于汉字成词能力的HMM隐马尔可夫模型,Viterbi算法
jieba.cut( str, cut_all, hmm )
jieba.cut_for_search( str, hmm ) // 用于搜索引擎分词,粒度较细
- snownlp
博客介绍了jieba和snownlp相关技术。jieba基于前缀词典识别词汇,生成DAG有向无环图,用DP查找最大概率路径确定最大切分组合,对未登陆词采用基于汉字成词能力的HMM隐马尔可夫模型和Viterbi算法。
8万+

被折叠的 条评论
为什么被折叠?



