-
分词方法
-
基于子词
-
BPE
-
基于子词频率的词合成
-
可能存在的局限: 对低频子词的捕捉能力较弱(相对于WordPiece)
-
局限:语义价值不大但频率高的词被保留(相对于Unigram)
-
匹配策略:贪心(局部最优)。想用全局最优必须要子词概率,BPE和WordPiece是可以强行得出概率,但是参考的价值不大
-
-
-
WordPiece
-
在BPE的基础上加上引入概率增益分数
-
局限:语义价值不大但频率高的词被保留(相对于Unigram)
-
匹配策略:贪心
-
-
-
Unigram
-
通过收敛方式计算子词概率
-
优点:能筛选出语义价值高(概率大)的词
-
局限:训练成本
-
匹配策略:动归(全局最优)
-
-
-
个人认为的排位: 单语言:Unigram>WordPiece=BPE 多语言WordPiece或许能往前排
-
-
基于字符
-
基于模型序列标注
-
nlp分词方法
最新推荐文章于 2025-10-13 20:26:03 发布
625

被折叠的 条评论
为什么被折叠?



