小余同学的机器学习笔记1
1. 什么叫机器学习
大量数据输入,通过机器学习算法进行学习,最后得出一个模型,然后可以通过这个模型预测出或者得出某个样例结果。
2. 环境
anaconda+pycharm
3. 相关概念
数据整体叫数据集(data set),某一行叫样本(sample),某一列叫特征(feature),具体某一列可以叫特征向量(Xi),最后一列叫标签(label)。
样本除开最后一列可以看成一个矩阵X,最后一列可以看成向量y。
第i个样本写作X(i),第i个样本第j个特征写作X(i)j,第i个样本的标记写作y(i)。
4. 监督学习
4.1分类
- 分类任务本质是在==特征空间(feature space)==进行切分。
- 特征可以是具体数,也可以很抽象。比如图像每一个像素点都是特征。
- 分类任务包括:二分类,多分类,多标签分类。
4.2 回归
- 结果是一个连续的数字,而非类别。(房屋价格,学生成绩)
- 回归也可以解决分类问题。可以设置阈值,比如说范围取值在[0-1],>0.5的概率是一类,否则是另一类。
很多问题可以进行转换。
5. 机器学习方法的分类:监督与非监督
| 监督学习 | 非监督学习 | 半监督学习 | 增强学习 |
|---|---|---|---|
| 给机器的数据拥有标签或者答案。 | 给机器输入的数据没有标签或者答案,它从无标记的训练数据中推断结论。比如聚类分析。 | 部分数据拥有标签或者答案,另一部分没有。(各种原因产生的标记缺失) .通常用无监督学习手段对数据进行处理,之后再用监督学习进行模型训练和预测。 | 从环境中学习,根据环境的反馈进行优化改进。如无人驾驶,机器人。 |
非监督学习的意义:
- 对没有标记的数据进行分类-聚类分析
- 对数据进行降维处理(特征提取,特征压缩:PCA),方便可视化
- 异常检测

6. 机器学习分类:批量、在线、参数、非参数
| 批量学习 | 在线学习 | 参数学习 | 非参数学习 |
|---|---|---|---|
| 一次输入多组数据,建立模型,之后再输入新的数据,模型不会再改变。 | 在线学习其实相当于批量学习的改进,可以从样例输入的输出结果,再次进行学习。 | 通过数据得到一定规律,预测参数,一旦得到了参数,就不需要原来的数据集了。比如得到了一条函数曲线。 | 1.不对模型进行过多假设 2.非参数不等于没有参数 |
| 重新批量学习,运算量巨大;不适合变化很快的情况,如股市预测。 | 新的数据带来的变化可能不好,则需要对数据进行监控。 |
7. 思考与总结:
总的来说算法没有好坏之分,只能说具体某个问题,有些算法更好一点。
脱离具体问题谈没有意义。
在面临具体问题时要多进行尝试,进行比较。
算法为王还是数据为王?…


被折叠的 条评论
为什么被折叠?



