附Java/C/C++/机器学习/算法与数据结构/前端/安卓/Python/程序员必读技术书单大全:
书单导航页(点击右侧小资源即可打开个人博客):技术书栈
=====>>【Java大牛带你入门到进阶之路】<<====
在这篇文章中,将介绍机器学习项目的流程
明确问题
首先,我们需要预览这个项目。项目的目的是什么,以房价预测为例,数据为StatLib的加州房产数据,那么目的就是预测街区的房产价格中位数。
划定问题及分析
要知道商业目的是什么,毕竟建立模型不是最终目的。比如说,目的是输出一个价格传给另一套系统来判断是否值得投资以及利润是多少。 要知道现在的解决方案效果怎么样,比如会给出一个现解决方案的误差率是alpha。 现在我们可以进一步研究问题,明确这个问题是监督/非监督,还是强化模型?是分类/回归,还是聚类等其他。要使用批量学习还是线上学习? 分析,我们有房价的值,所以是一个监督问题;我们最终是要预测得到房价中位数,因此是一个回归问题,而且是一个多变量预测回归,因为有很多影响参数;另外,没有连续的数据流入,没有特别需求需要对数据变动作出快速适应。数据量不大可以放到内存中,因此批量学习就可以。【如果数据量很大,你可以要么在多个服务器上对批量学习做拆分(使用 MapReduce 技术,后面会看到),或是使用线上学习