关于MATLAB处理大数据坐标文件2017528

本文通过两次数据提交实验对比分析了特征选择与数据集规模对于机器学习模型准确率的影响,强调了合理特征组合及扩大训练集的重要性。

第一次提交数据

增加了部分特征

3000数据测试中得分99


但是10万数据出现过拟化现象,正确率下降





总结:1.某些特征数据本身波动不大应该考虑放弃

   2.一些特征虽然表面觉得差异显而易见,但是数据表达出来的结果不一定完美

 

  第二次提交数据

 

   这次提交的数据采用昨天提交的特征,并加入今天的得出的特征的其中一个,打算以不同的方式找出最佳配合

   结果 分数降低7分

   本次吸取经验教训,得出如下总结:1.继续寻找特征的最佳组合

                 2.训练集太少,端午前后必须扩大训练集

 

转载于:https://www.cnblogs.com/jjuiipg2017/p/6915635.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值