DataAnalysis-Maggie-Lecture6-机器学习基础

机器学习基础与模型评估

原创于 2021-07-12 16:11:03 发布 · 208 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

PolyU课程记录专栏收录该内容

7 篇文章

订阅专栏

本文介绍了机器学习的基础流程，包括定义问题、构建数据集、数据变换、训练模型和预测。以垃圾邮件标记系统为例，解释了样本、特征、目标和模型的概念。涉及监督学习的分类和回归任务，以及决策树算法。支持向量机通过寻找最优超平面进行分类，并介绍了聚类和降维在非监督学习中的应用。此外，讨论了模型评价，如混淆矩阵、准确率、召回率、精确率、F1分数、ROC和PR曲线，以及回归模型的评价指标如MSE和MAE。最后，提到了交叉验证作为模型评估和调参的方法。

ML的基础框架

1定义要解决的问题
2构建数据集
3数据变换
4训练模型
5使用模型预测

example：垃圾邮件标记系统来解释术语

Dataset:一堆的邮件
Sample/Instances:一封邮件
Feature/Variables:邮件中的单词，标点，URL，标题等
Target/Labels:邮件的标签，正常，spam，群发等
Model:一个可以标记邮件的软件
Hyperparameters:构建模型的参数

监督学习
分类：输出一个label，离散的。
回归：输出一个value，连续的。

决策树生成的三种算法 ID3，C4.5，CART

支持向量机步骤

1画出决策边界的超平面2计算边距3更新超平面使Margin最大4重复二三步骤

非监督学习

1聚类 2降维

模型粗略估计，可用于调参

CrossValidation交叉验证：让我们粗略了解不同的机器学习方法的效果。
10-fold交叉验证：将训练集均分10份，训练10次每一份都有机会当测试集。

分类模型评价

ConfusionMatrix混淆矩阵：
[TP，FN]
[FP，TN]
Acc准确率（所有样本中说对的比率），
Recall（所有真样本中，被预测为真的比率），增加召回率，会倾向于判真，增加成本。
Precision（所有被预测为真的样本，确实为真的比率），怎加精确率，判假增加，风险增加。
F1(R和P的调和平均数)，
TPR（预测为真，中说对的概率），FPR（预测为假，中说对的概率）
ROC曲线，AUC，越靠近左上角越好。
PR曲线，AUC，越靠近右上角越好。

回归模型评价

MSE 均方差
MAE 平均绝对值差

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。