关于机器学习的4种算法

随机森林

随机森林创建数百棵树并将它们的结果取平均值。森林中的每棵决策树都是从训练样本的随机子集和特征的随机子集中学习的。为了对测试集进行分类,需要对每个决策树的输出进行平均,来确定总体输出。具体来说就是遍历每棵树,直到叶子节点。单棵树可能容易过度拟合(不小心高或者低),并且对训练数据的微小变化非常敏感,而随机森林可以允许模型以相对较低的偏差 捕获数据中的复杂结构。随机森林不产生回归系数,通过 Gini 指数来衡量每个变量的重要度。
随机森林是分类和回归树(CART)的集合。从 p 个总特征中随机选择 m 个 特征并从中选择最佳分割,对构建的树进行投票,选出投票次数最多的类别(分 类)。

支持向量机

SVM 高斯混合核函数SVM 通过使用超平面作为决策边界区分具有更大边距的数据点来执行分类 。SVM 分类器包括超平面、边缘超平面、内核和软边缘。超平面是区分离散数据点的线。边距是数据样本与超平面之间的距离。边缘超平面将具有最大距离 的不同数据彼此分开。靠近超平面的数据样本称为支持向量。核函数的目的是将数据样本转化为高维特征空间。线性 SVM 和非线性 SVM 是 SVM 中涉及的类 别。
https: //blog.youkuaiyun.com/Esteban123/article/details/128643299
https: //mp.weixin.qq.com/s?__biz=MzUyODk0Njc1NQ==&mid=2247483926&idx=1&sn=8cb4861ad6f4a56f8f233c322ebcc5b3&chksm=fa69c13acd1e482ca143d21d476c4f7242a1e438c3a9103fe0931ee18b528176e5c765fa8678&scene=27
https: //wenku.baidu.com/view/265dff2aab956bec0975f46527d3240c8547a15c.html?wkts=1693533142751&bdQuery=netMHCpan

自创软件例如NetMHCpan是一种基于神经网络的MHC分子 - 肽配对预测方法。它能够预测MHC分子与肽的结合亲和力,从而帮助研究人员预测肽段是否能够被MHC分子识别和结合

逻辑回归

逻辑回归(Logistic Regression)是广义线性模型。在易于计算方面,逻辑回 归是二元响应数据的广义线性模型中最好的模型。Logistic 回归的优点是变量可 以是离散的或任何类型的组合,而不必是正态分布的

K 近邻

K 近邻(KNN)分类器通过测量查询和一组训练模式之间的相似性来执行分 类,通常计算为距离。KNN 分类器与距离或相似性度量的选择密切相关,因此 在比较生物医学数据时研究使用不同距离度量的效果是有效的,K 近邻基于监督学习。目的是在新样本出现时从现有训练数据中找到最近的 k 个样本,并根据最相似的类别对出现的样本进行分类,通常接近度用欧几里得距离定义

本文应用准确率(𝑇𝑃+𝑇𝑁/𝑇𝑃+𝐹𝑁+𝐹𝑃+𝑇𝑁)、 精确率(𝑇𝑃/𝑇𝑃+𝐹𝑃)、召回率(𝑇𝑃/𝑇𝑃+𝐹𝑁)、F1 分数(查准率和查全率的调和平均值,2∙𝑃∙𝑅/𝑃+𝑅)和 ROC 曲线 / AUC (TPR 真正例率或者敏感性= 𝑇𝑃/𝑇𝑃+𝐹𝑁即Y轴,FPR假正例率或者特异性=𝐹𝑃/𝐹𝑃+𝑇𝑁即X 轴)来评估算法的可预测性,
TP(True positive),FP(False positive); FP(False positive),TN(True negative)
TP和FN(误判)是真的
FP和TN(误判)是假的

利用显 著差异基因基因作为特征,通过随机森林(RF),支持向量机(SVM),逻辑回归 (LR),K 近邻(KNN)四种传统机器学习算法构建预测胰腺癌转移的模型,比 较模型效果

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值