一、神经网络模型
二、word2vec
(一)独热编码的优缺
优点:
- 解决了不好处理离散数据的问题;
- 在一定程度上也起到了扩充特征的作用。
缺点:
- 词袋模型,不考虑词与词之间的顺序;
- 假设词与词相互独立;
- 得到的特征是离散稀疏的。
(二)word embedding
将高维稀疏向量映射到低维稠密向量
- 映射是单设;
- 映射之后不会丢失之前所含的信息。
(一)独热编码的优缺
优点:
- 解决了不好处理离散数据的问题;
- 在一定程度上也起到了扩充特征的作用。
缺点:
- 词袋模型,不考虑词与词之间的顺序;
- 假设词与词相互独立;
- 得到的特征是离散稀疏的。
(二)word embedding
将高维稀疏向量映射到低维稠密向量
- 映射是单设;
- 映射之后不会丢失之前所含的信息。