作者:轻易科技知行研发部 - 王彧
最近参加了京东举办的数字科技全球探索者大赛,题目“人口动态普查与预测”,本赛题要求参赛者利用几个邻近城市的移动通信设备用户数历史变动情况,各区县之间的用户转移情况,以及各个区县内移动通信设备的用户占比(决赛阶段提供)等模拟数据,合理建立预测模型,对上述城市各个区县未来15天的总人口变化情况进行动态预测。平时经常会接触到很多大数据,但是很少去研究机器学习,但是众所周知大数据和机器学习是未来趋势,so报名开始了我的机器学习之路。
一、什么是机器学习
利用计算机从历史数据中找出规律,并把这些规律用到对未来不确定场景的决策。
这里面最重要的一个词是“计算机”,明确表明了机器学习的主体是计算机而不是人。所以这就要明确区分出“数据分析”与“机器学习”的区别:从历史数据中找规律,一类以人为驱动——数据分析,学习效果更大程度上依赖于人本身的经验和知识水平;而另一类是完完全全靠计算机——机器学习。
人类从数据中寻找规律已经有几百年历史了,《概率论》是机器学习的基石。过去受限于计算能力的限制,所以《数据统计》学一直基于抽样的方式,做描述统计,做出结论,再根据结论做假设检验。然而当前的计算机运算能力已经完全可以对全量数据进行处理。
机器学习发展的原动力
1、从历史数据中找出规律,把这些规律用到对未来自动做出决定
2、用机器学习的客观性全面性,代替专家可能存在的片面性,主观性(expert:经验 规则-由程序员用代码写出来-业务逻辑即用数据来告诉我们规律。)
3、经济驱动,数据变现