写在前面的一些废话
伴随课程以及自习,学得既算系统也算零散。学校多统计,算法讲解几近寥寥。自古以来,统计系的教授多半乐于指摘机器学习与人工智能,但学科总又不得不与之挂钩密切,且多随其发展潮起潮落。内部纠纷,不足为外人道已。只有深受其纷杂概念困扰的学习者,感触颇深。不随时总结,建立知识库,实在容易迷失。
对《利用PYTHON进行数据分析》重点章节粗略研习,绘制思维导图加深记忆,成效喜闻乐见。但考虑到涉及的原理与算法,知识点繁多,思维导图不利于初学记忆与学习,故择些要点阐述与加深印象。(注:原理与算法总结多出自于《Python大战机器学习》,有兴趣者可自行阅读研习。) 文章阅读适合对像:有一定统计基础,希望串知识点,查漏补缺。
总结多数机器学习算法框架,可发现组成部分:
1. 明确样本输入与输出;
2. 构建待学习模型;
3. 确定损失函数/目标函数(平方损失函数等);
4. 明确模型目标(最小化、最大化);
5. 求解方法(最小二乘法、极大似然估计、牛顿迭代法、拉格朗日等);
6. 求解结果形式;
其中,由于不同的模型方法,涉及的损失函数不尽相同,部分涉及参数的引进与构建。此时,求解过程多半需要参数优化与交叉验证。
正文
1.1 线性模型概述
线性模型中的“线性”其实是一系列一次特征的线性组合,在二维空间中是一条直线,在三位空间是一个平面,推广至n维空间,为广义线性模型。
广义线性模型包括:岭回归、lasso回归、Elastic Net、逻辑回归、线性判别分析等。
模型形式:
其中,表示样本,样本包含n种特征,