Xgboost的一些坑

本文分享了使用Xgboost进行竞赛的经验,特别是在处理数据输入时遇到的各种问题及解决方案。作者建议避免使用SVMLib格式文件,转而推荐使用numpy或scipy等现有变量,并介绍了一种使用pickle存储数据的方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

这两天做一个竞赛,用Xgboost作为工具来做了一些事情。
主要的框架是 Xgboost的python扩展。
然后这过程中花了不少时间在解决各种Xgboost的error上。
大部分的问题都在这个函数里

dtrain = xgb.DMatrix('train.txt')
dtest = xgb.DMatrix('test.txt')

会出现各种莫名其妙的错误,我调了发现了有些神器的事情是,我的某个特征居然会影响这个函数报错。
但是完全不是格式上的问题,我检查过了。
最后总结一个事情:

  • 最好不要用SVMLib格式的文件来当做data输入

直接用numpy或者scipy等现有变量。

可能带来的一个不方便的地方是,本来需要用文件来存储计算好的特征数据,需要只调用xgboost在两个文件上进行调参。
一个代替的办法就是用pickle来存储numpy变量了。

一个小坑先写在这类。

评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值