心脏病分类及其早期预测
1. 监督学习算法概述
监督学习算法利用已知数据集及其预定义结果进行学习,目标是构建一个能够对新输入值进行预测的模型。其核心在于找出输入变量(用 X 表示)和输出属性(用 Y 表示)之间可能被忽视的关系。
具体工作流程如下:
1. 向模型输入带标签的数据集,使模型学习各类数据的特征。
2. 提供一组测试数据值,让模型预测结果。
常用的监督学习算法包括:
- 逻辑回归
- K - 近邻算法(K - NN)
- 随机森林
- 朴素贝叶斯(NB)
2. 各算法详细介绍
2.1 逻辑回归
逻辑回归是一种适用于二元结果问题的分类算法,有助于描述数据并理解一个二元因变量与一个或多个名义自变量之间的潜在关系。该模型使用逻辑函数来求解方程的输出,输出值介于 0 和 1 之间。其向量形式为:
[p = h_{\theta}(x) = \sigma(\theta^T X)]
其中,(\theta) 是训练的向量参数,(\sigma(x)) 表示 sigmoid 函数,其值范围为 0 到 1。
在应用该模型前,需要满足以下假设:
- 因变量的值应为二元的。
- 数据中不应存在异常值。
- 数据间不应有高度相关性。
计算准确率时,先让模型预测目标值,再将预测值与实际目标值进行比较。训练数据的预测结果存储在 X_train_prediction 中。对测试数据 X_test 进行同样的预测,并将预测值传入 <
超级会员免费看
订阅专栏 解锁全文
29

被折叠的 条评论
为什么被折叠?



