特征表达——统计、hash、embedding

本文介绍了机器学习中常见的三种特征表示方法:统计方法如TF-IDF,哈希方法通过哈希函数进行特征降维,以及Embedding方法,特别是word2vec及其在知识图谱中的应用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

在机器学习领域的特征,一般是一个id,而且给这个id赋一个值。

1、这个特征值的表达一般可以通过统计的tf 或其他类似的数字表示。

2、比较难于理解的是hash在特征表达里也能起到比较重要的作用。  通过对特征运用hash函数,获得对应的值。裁剪、分桶获取对应的位表示。可以用作特征,起到降维的作用。

3、还有现在比较流行的是用embedding的方式,将特征映射到一定维度的实数空间里,相比hash不一样的是,这种做法一般是神经网络的迭代方式,而不是hash的非迭代云素昂方式,hash依赖的的hash核函数要设计的比较好(这个门槛比较高)。 embedding发热,主要源于word2vec的盛行, 在知识图谱领域演化了很多类似的TransE、TransR等方法。



评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值