点击日志数据转换成FFM数据格式——CSV2FFM

本文探讨了FFM数据格式及其转换,包括单值和多值特征的处理,以及如何将日志数据转换为FFM格式。通过比较kaggle和微软的不同转换版本,指出在大规模数据下微软版本的效率优势。同时,作者尝试用movielens-1M数据集验证转换的有效性,但在libffm中遇到模型预测问题,对于评分预测和分类的效果都不理想,寻求解决方案。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

在用FFM数据时,肯定会问几个问题:1-ffm数据是啥意思,特征中的数据是啥意思啊,例如1:2:0,3:5:1,这种数据本来的真实数据是啥?2-如何将真实数据转成这种格式?转换中肯定会遇到的问题(1)单值与多值特征怎么区别对待?(2)在使用模型训练ffm数据后是否需要特征原来对应的真实数据?(这个问题是跑一个模型就知道了,或许就不是问题)3-模型训练完后如何召回?能不能用faiss

下面先说2-生产数据格式转换

2-1,单值数据转换成FFM数据格式,在kaggle上看到了一个非并行版本

这里面需要了解一个函数make_classification

from sklearn.datasets import make_classification

原来版本是100个samples,注意int是数值型数据,这种数据feature idx肯定都是一样的,而str才是类别型数据,所以value 都是1

这里我的疑问已经被另一个大佬提出来了,为啥不是从0到1进行编码,这个有点难以理解啊。

刚一夸kaggle比逼乎逼格高,特么的就屏蔽我的账号了??卧槽,</

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小李飞刀李寻欢

您的欣赏将是我奋斗路上的动力!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值