良好的开端
拿到一个问题首先要看题目理解这是一个什么类型的问题?
是分类,还是回归?有或者其它问题。理解清楚题目类型是解题的第一步,它很关键。后面的一系列工具都会围绕这个类型去使用。
审视题目信息
拿到数据的时候要仔细读数据说明。从中提取出关键信息。如:
- 数据是否缺失
- 数据连续性
- 数据间是否关联
- 等等其它信息
通过describe() 观察数据训练集与测试集的基本信息,了解样本的个数、平均数、方差、四分位数、最大值、最小值 是否相对一致。
通过info()观察数据类型已经是否有缺失的情况,从而考虑对确实的数据进行补全或者删除处理。以减少缺失数据对样本统计的影响。
绘制样本分布图以排除是否有极端数据,或错误数据对整个样本平均值的影响。
通过 value_counts() 对样本中类型数据进行统计,看是否有倾斜的情况,如果类型严重倾斜则对预测没什么帮助,在进行预测时可以删除这个因素的数据。同时它可以绘图了解这些值的分布情况。
评测标准
评价标准不同会带来不同的差异效果。要根据评价标准选择合适的模型训练。
实践出真知
对于入门者来说,最快进步的方法就是先把baseline 跑起来。然后通过不断的调参,分析数据,排除对价格相对无关的影响数据,优化缺失数据等。根据评价标准调整训练模型,以达到最佳优化。
感想
所谓数据分析,其实是找数据对结论影响因子的过程。不仅需要深厚的算法功底,还要有敏锐的眼光找到数据的差异与共性。同时要了解业务,通过业务辅助数据分析。通过这次组队学习,我看别的队伍有主动搜集市场上二手车评价标准的整理。要向他们学习啊,主动了解市场,技术说到底是为人类服务的,主动了解市场,做数据分析的能力,需要向他们好好学习。
面对问题,首要任务是明确其类型—分类、回归或其他。理解问题类型是选择合适工具与方法的基础。检查数据完整性,分析数据特征,评估样本分布,确保数据质量。根据评价标准调整模型,实践是提升技能的最佳途径。

被折叠的 条评论
为什么被折叠?



