疾病预测算法与生物柴油性能研究
1. 疾病预测算法相关
1.1 决策树算法
决策树是一种简单的非参数算法,无需额外检查超参数值。它基于每个特征计算的熵来检查节点的杂质,树的分裂过程会持续进行,直到所考虑子集中的所有节点都是纯节点。通过熵计算信息增益值,熵值越高,节点被选中的概率就越高。决策树生成简单的“如果 - 那么”规则来推断变量并生成目标值。
1.2 支持向量机(SVM)算法
支持向量机是一种线性算法,可用于分类和回归。它是将数据绘制为坐标系上的点的最佳几何模型,其主要目标是定义一个能精确预测类别标签的合适超平面。在相关研究中,由于数据集不平衡且是多分类问题,SVM 使用了非线性核函数,即“高斯径向基”。其计算公式如下:
[GRBK(Y; f(Y)) = e^{-\frac{(Y - f(y))^2}{2c^2}}]
其中,((y, f(y))) 表示 n 维空间中的数据点,(c) 是程序员根据应用提供的常量值。
1.3 K 近邻(KNN)算法
K 近邻是一种非参数算法,适用于构建分类树和回归树。该算法会搜索整个数据集,通过计算距离来预测类别标签,并根据距离分配排名,只考虑距离小于或等于 K 值的点。在相关研究中,使用 Minkowski 距离进行计算,公式如下:
[Mink(D) = (\sum_{i = 1}^{n}(X_i - Y_i)^P)^{\frac{1}{P}}]
其中,(X_i) 和 (Y_i) 是一组数据点,且 (P \geq 1)。
KNN 算法步骤:
- 加载疾病预测数据集 (D)。
超级会员免费看
订阅专栏 解锁全文
1954

被折叠的 条评论
为什么被折叠?



