文本向量化的方法

本文介绍了文本向量化的基本思路,包括向量空间模型VSM,尤其是词袋模型和TF-IDF,以及分布式表示方法,如LSA和Word2Vec。讨论了VSM的高维灾难和语义丢失问题,以及分布式表示的优势。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

把文本表达为可以让计算机来理解的形式,所谓文本表示,文本向量化。文本向量化,可以分为词语的向量表达,短文本的向量表达,长文本的向量表达,  因为不同的情景需要用到不同的方法和处理方式。

忽视这些细节,对一般情况下文本的向量化做了下调查,常见的思路介绍如下:

一: 向量空间模型 VSM 

一般所指的向量空间模型我认为也可以说是bag of words  词袋模型:其中最简单的模式是基于词的独热表示(one-hot reprentation),  用每一个词作为维度key,有单词对应的位置为1,其他为0,向量长度和词典大小相同。工程上比较常用的是用该词的tfidf值作为权重, (word1, word2,word3.。。。word N), itidf是文本处理里最常见的一种权重计算方式,属于入门级方案,基于此也有一系列的优化方法,诸如TFC权重/ITC权重,但是思想和tfidf差不多。  一般会进行归一化处理,  很多工具都带有相应模块来计算tfidf。 在选取不同的词来做维度特征的时候,需要先去除停用词, 又涉及了一个特征选择的问题, 并不是所有的词都适合拿来用。 一般会根据ifidf值或者词频之类的做一些简单的过滤, 也有一些专门选取特征的方法,诸如信息增益,互信息,卡方统计等, 有文章专门介绍。

文本向量化,tfidf这是90%以上的文章和相关机器学习库demo,论文里会提到的方法。关于其优点,简单好用,很大程度上就可以满足我们的需求了。举一个通俗易懂的例子

 http://www.ruanyifeng.com/blog/2013/03/tf-idf.html

缺点,这里引用了别人的描述”http://www.jbingo.net/doku.php?id=mlwiki:vectorization“

“中文切词会引入

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值