一、中文分词方法
- 基于字典的分词方法
- 基础规则的分词方法
- 基于统计的分词方法(统计在一段话中出现频率最的那个分词字段)
- 基于深度学的的方法(通过大量的数据的学习)
二、词向量化
- one-hot
- word2vec 将词映射到多维空间里
三、神经网络
- RNN(循环神经网络)
特点:记忆是短期,梯度消失以及梯度爆炸‘’ - LSTM(长短期记忆网络) 是 RNN 的进一步优化
特点:克服 RNN 梯度消失的问题,而且能学习到长距离的信息 - BILSTM (双向长短期神经网络)
四、统计模型
CRF:条件随机场是标记、分割结构化数据的统计模型。CRF 优于隐马尔可夫模型在于放松了 HMM 所需的独立性假设。另外避免了标签偏差问题。CRF 训练的损失函数是凸函数,全局收敛,具有非常好的实用性。
特点:隐马尔可夫是有向图,每个状态依赖于上个状态,而线性链条件随机场是无向
图,当前状态依赖于周围结点的状态,可以捕捉全局信息,所以效果更好
五、jieba 分词
jieba 是结合基于规则和基于统计的分词工具。
jieba 有三种分词模式,分别是精确模式,全模式和搜索引擎模式
六、词向量
- 输入层
使用one-hot编码。 - 隐藏层
隐藏层的神经单元数量代表着每一个词用向量表示的维度。 - 输出层
七、分词的评估标准
精确率:正确的分词个数/总分词的个数
召回率:正确的个数/标准分词的个数
F值:正确率召回率2/(正确率+召回率)
错误率:错误分词的个数/标准分词的个数
本文深入探讨中文分词的各种方法,包括基于字典、规则、统计及深度学习的分词技术,并介绍词向量的概念,如one-hot和word2vec。此外,还涵盖了神经网络如RNN、LSTM、BILSTM的作用,统计模型CRF的优势,以及jieba分词工具的使用方式和分词评估标准。
1521

被折叠的 条评论
为什么被折叠?



