Feature hashing相关 - 1

本文深入探讨了特征哈希在文本分类任务中的应用,通过直接对特征进行哈希编号,实现了在相同内存占用下存储更多权重的目标。详细介绍了特征哈希的工作原理,包括分词、构建特征词典、映射特征空间、学习参数和预测过程,并与传统文本分类方法进行了对比,突出了特征哈希在处理大规模文本数据时的优势。

考虑典型的文本分类,一个经典的方法就是

   

  1. 分词,扫描所有特征,建立特征词典
  2. 重新扫描所有特征,利用特征词典将特征映射到特征空间编号 得到特征向量
  3. 学习参数 w
  4. 存储学习参数 w , 存储特征映射词典
  5. 预测截断装载学习参数w,装载特征映射词典
  6. 扫描数据,将所有特征利用特征映射词典映射到特征空间编号 得到特征向量
  7. 利用用学习参数w 对得到的特征向量 进行 点积 做出预测

   

   

Feature hashing怎么做?

不使用特征词典了,不用考虑额外的存储词典的空间,直接对特征进行hash编号。

有冲突? 后面会说明对效果影响不大!

   

   

   

同样的内存占用下 我们可以存储更多的weights!

   

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值