nlp分词方法

  • 分词方法

    • 基于子词

      • BPE

        • 基于子词频率的词合成

          • 可能存在的局限: 对低频子词的捕捉能力较弱(相对于WordPiece)

          • 局限:语义价值不大但频率高的词被保留(相对于Unigram)

          • 匹配策略:贪心(局部最优)。想用全局最优必须要子词概率,BPE和WordPiece是可以强行得出概率,但是参考的价值不大

      • WordPiece

        • 在BPE的基础上加上引入​​概率增益分数​​

          • 局限:语义价值不大但频率高的词被保留(相对于Unigram)

          • 匹配策略:贪心

      • Unigram

        • 通过收敛方式计算子词概率

          • 优点:能筛选出语义价值高(概率大)的词

          • 局限:训练成本

          • 匹配策略:动归(全局最优)

      • 个人认为的排位: 单语言:Unigram>WordPiece=BPE 多语言WordPiece或许能往前排

    • 基于字符

    • 基于模型序列标注

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值