word2vec学习笔记之文本向量化概述

本文介绍了NLP中常见的文本向量化技术,包括one-hot、tf-idf、n-gram、NNLM及word2vec,详细阐述了每种方法的工作原理及适用场景。


在NLP的处理中,我们需要讲文本输入到模型中处理,实现分类识别,文本生成或者翻译等工作。而模型是无法知道一个纯粹的文本是什么意思的,模型的输入只能是数字,比如连续型的小数或则离散的整数。而对于文本之类的无法直接用数字表示的数据可以通过一下几种方式处理。

1. one-hot

在机器学习中,我们经常使用该方法处理一些类别型的数据。比方说,在预测放假的时候,有一微特征表示几线城市,有“一线”,“新一线”,“二线”,“三线”,“四线”,“其他”等,那么当某一个特征的值为“二线”的时候,就可以表示为[0, 0, 1, 0, 0, 0]。在实现的时候,可使用sklearn进行one-hot编码。

# 例子来自sklearn的官方例子,https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OneHotEncoder.html
>>> from sklearn.preprocessing import OneHotEncoder
>>> enc = OneHotEncoder(handle_unknown='ignore')
>>> X = [['Male', 1], ['Female', 3], ['Female', 2]]
>>> enc.fit(X)
OneHotEncoder(handle_unknown='ignore')
>>> enc.categories_
[array(['Female', 'Male'], dtype=object), array([1, 2, 3], dtype=object)]
>>> enc.transform([['Female', 1], ['Male', 4]]).toarray()
array([[1., 0., 1., 0., 0.],
       [0.
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值