
机器学习
文章平均质量分 97
机器学习是一个非常热门的技术,本掌内容涵盖多种机器学习模型,包括流行的机器学习算法,例如K近邻算法、逻辑回归、朴素贝叶斯、K 均值算法、决策树以及人工神经网络
i阿极
数据分析优质创作者、华为云社区专家博主,工作和研究方向为数据分析、机器学习、爬虫,持续分享学习文章,感谢关注和支持。专栏《机器学习案例》感兴趣的小伙伴速速订阅,资源有对应数据可下载。
服务至上:爬虫|期末作业|课程项目|商务合作
展开
-
基于随机森林和Xgboost对肥胖风险的多类别预测
此项目适合毕设和课设学习等等。代码可运行,有数据可视化,模型建立,准确率对比,模型检验。原创 2024-04-30 10:23:19 · 4988 阅读 · 42 评论 -
基于XGBoost和数据预处理的电动汽车车型预测
***(很适合毕设和课程作业)***这组代码片段对通过华盛顿州许可部注册的纯电动汽车(BEV)和插电式混合动力汽车(PHEV)的数据集进行了各种分析。这些代码产生了一些见解,如按城市划分的电动续航里程统计数据、CAFV资格计数、电动汽车制造商的受欢迎程度、续航里程统计(最大、最小、平均)、电动汽车类型分布、按车型年份划分的采用趋势以及按县划分的采用情况。结果保存在CSV文件中,并通过条形图、折线图和饼图进行可视化。这些分析为华盛顿州的电动汽车前景和采用模式提供了宝贵的见解。原创 2024-03-27 11:29:48 · 7017 阅读 · 21 评论 -
机器学习模型预测贷款审批
贷款是现代世界的主要需求。仅此一点,银行就获得了总利润的主要部分。它有利于学生管理他们的教育和生活费用,也有利于人们购买任何类型的奢侈品,如房子、汽车等。但在决定申请人的个人资料是否与获得贷款相关时。银行必须照顾很多方面。因此,在这里我们将使用Python机器学习来简化他们的工作,并使用婚姻状况、教育、申请人收入、信用记录等关键特征来预测候选人的个人资料是否相关。1贷款唯一的ID2性别申请人性别 男/女3已婚申请人的婚姻状况,值为是/否4家属它告诉申请人是否有任何家属。5。原创 2024-01-30 17:35:01 · 10274 阅读 · 26 评论 -
使用Scikit Learn 进行识别手写数字
Scikit learn 是机器学习社区中使用最广泛的机器学习库之一,其背后的原因是代码的简便性以及机器学习开发人员构建机器学习模型所需的几乎所有功能的可用性。在本文中,我们将学习如何使用 sklearn 在手写数字数据集上训练 MLP 模型。其他一些好处是:1、它提供分类、回归和聚类算法,例如SVM算法、随机森林、梯度提升和k 均值。2、它还设计用于与Python 的科学和数值库NumPy和SciPy一起运行。原创 2024-01-08 15:20:55 · 1185 阅读 · 33 评论 -
基于决策树、随机森林和层次聚类对帕尔默企鹅数据分析
随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。Palmer Penguins 数据集是近年来在数据科学和机器学习领域受到关注的一个数据集,经常被用作鸢尾花数据集的一个替代品。数据集包含了对南极洲不同地区生活的企鹅种群的研究数据,主要用于数据探索和可视化,以及分类任务。这些聚类结果可能与企鹅的物理特征(如喙长、喙深、鳍状肢长度和体重)和/或其地理分布(如所在岛屿)有关。原创 2024-01-03 11:02:03 · 4444 阅读 · 35 评论 -
机器学习:基于Python 机器学习进行医疗保险价格预测
在本文中,我们将尝试使用 Python 中的机器学习从数据集中提取一些见解,该数据集包含有关购买医疗保险的人的背景以及向这些人收取的保费金额的详细信息。原创 2023-06-28 08:17:40 · 5385 阅读 · 93 评论 -
机器学习:基于逻辑回归对航空公司乘客满意度的因素分析
本文旨在基于逻辑回归方法对航空公司乘客满意度的因素进行分析。逻辑回归是一种广泛应用于分类问题的统计学习方法,能够帮助我们理解和预测不同因素对乘客满意度的影响程度。原创 2023-06-25 10:22:30 · 5649 阅读 · 86 评论 -
机器学习:基于AdaBoost算法模型对信用卡是否违约进行识别
AdaBoost算法 (Adaptive Boosting) 是一种有效而实用的Boosting算法,它以一种高度自适应的方法顺序地训练弱学习器.原创 2023-06-13 11:19:36 · 3154 阅读 · 96 评论 -
机器学习:基于XGBoost对信用卡欺诈行为的识别
XGBoost(eXtreme Gradient Boosting)是一种梯度提升树算法,它是基于决策树的集成学习方法。相对于传统的梯度提升树算法,XGBoost引入了一些创新的技术,如正则化、并行计算和缺失值处理,以提高模型的准确性和效率。原创 2023-06-03 14:04:17 · 4965 阅读 · 94 评论 -
机器学习:基于随机森林(RFC)对酒店预订分析预测
在机器学习中,随机森林是一个包含多个决策树的分类器, 并且其输出的类别是由个别树输出的类别的众数而定。 Leo Breiman和Adele Cutler发展出推论出随机森林的算法。 而 "Random Forests" 是他们的商标。 这个术语是1995年由贝尔实验室的Tin Kam Ho所提出的随机决策森林(random decision forests)而来的。这个方法则是结合 Breimans 的 "Bootstrap aggregating" 想法和 Ho 的"random subspace met原创 2023-03-07 14:04:47 · 3806 阅读 · 140 评论 -
机器学习:基于K-近邻(KNN)对Pima人糖尿病预测分析
k-近邻算法是分类数据最简单最有效的算法,k-近邻算法是基于实例的学习,使用算法时我们必须有接近实际数据的训练样本数据。k-近邻算法必须保存全部数据集,如果训练数据集的很大,必须使用大量的存储空间。原创 2023-03-10 12:47:04 · 4687 阅读 · 85 评论 -
机器学习:基于Apriori算法对中医病症辩证关联规则分析
Apriori算法是一种经典的关联规则挖掘算法,用于发现数据集中频繁出现的项集和关联规则。该算法基于一种称为"先验原理"的观念,即如果一个项集是频繁的,那么它的所有子集也必须是频繁的。通过利用这个原理,Apriori算法逐步构建频繁项集,并生成关联规则。原创 2023-05-26 09:43:13 · 4049 阅读 · 115 评论 -
机器学习:基于Kmeans聚类算法对银行客户进行分类
K-means算法是一种常用的聚类算法,用于将数据集划分成k个不重叠的簇。其主要思想是通过迭代的方式将样本点划分到不同的簇中,使得同一簇内的样本点相似度较高,不同簇之间的相似度较低。原创 2023-05-14 09:23:48 · 13906 阅读 · 180 评论 -
机器学习:基于PCA对人脸识别数据降维并建立KNN模型检验
PCA(Principal Component Analysis)是一种常用的数据降维方法,通过线性变换将高维数据映射到低维空间,同时尽量保留原始数据的信息。PCA的主要思想是将原始数据的各个特征进行线性组合,使得新特征能够最大程度地保留原始数据的方差,从而达到降维的目的。原创 2023-04-28 10:20:40 · 3496 阅读 · 74 评论 -
机器学习:基于逻辑回归(Logistic Regression)对股票客户流失预测分析
逻辑回归(Logistic Regression)是一种二分类的监督学习算法,用于预测样本的概率属于某一类别的概率。相比于线性回归,逻辑回归可以更好地处理分类问题。原创 2023-04-24 11:35:08 · 7778 阅读 · 109 评论 -
机器学习:基于多项式贝叶斯对蘑菇毒性分类预测分析
多项贝叶斯算法是贝叶斯分类算法的一种,适用于多类别离散型特征的分类问题。在多项贝叶斯算法中,假设每个类别$c$都有一组特征$x_1,x_2,\dots,x_n$,这些特征都是离散型的,每个特征的取值为$x_{i,1},x_{i,2},\dots,x_{i,k}$,其中$k$为第$i$个特征的取值数量。原创 2023-04-22 15:43:25 · 4554 阅读 · 70 评论 -
机器学习(六):基于高斯贝叶斯对面部皮肤进行预测分析
高斯朴素贝叶斯算法是一种分类算法,它基于贝叶斯定理和特征之间的高斯分布假设。该算法被广泛应用于文本分类、垃圾邮件过滤、生物信息学等领域。原创 2023-04-21 15:11:16 · 2270 阅读 · 67 评论 -
机器学习(一):线性回归之最小二乘法
最小二乘法(Least Squares Method)是一种基本的回归分析方法,用于寻找一条线性回归方程,将自变量和因变量之间的关系进行拟合。该方法的基本原理是最小化所有观测点到回归直线的垂直距离的平方和,也就是最小化残差平方和。原创 2023-04-09 11:25:28 · 3329 阅读 · 81 评论 -
机器学习(二):线性回归之梯度下降法
梯度下降法是一种常见的优化方法,常用于求解损失函数最小化的问题。在线性回归模型中,我们可以使用梯度下降法来求解使得模型损失函数最小的模型参数。原创 2023-04-13 10:10:28 · 2832 阅读 · 80 评论 -
机器学习(五):基于KNN模型对高炉发电量进行回归预测分析
KNN(K-Nearest Neighbors)算法是一种非参数的分类和回归算法,它可以用于解决分类和回归问题。在KNN算法中,输入是一个向量,输出为该向量所属的类别或该向量的值。KNN算法的核心思想是:如果一个样本在特征空间中的K个最相邻的样本中,属于某一个类别的样本点最多,则该样本也属于这个类别。原创 2023-04-17 10:50:20 · 6446 阅读 · 73 评论 -
机器学习(四):基于KNN算法对鸢尾花类别进行分类预测
K最近邻(K-Nearest Neighbor,KNN)算法是一种用于分类和回归的非参数模型,它可以用于模式识别、图像处理、语音识别和推荐系统等领域。KNN算法的基本思想是根据样本之间的距离和相似性进行分类,即将一个新的样本分类为其最近的K个邻居中最常见的类别。原创 2023-04-16 17:33:09 · 5394 阅读 · 33 评论 -
机器学习:基于逻辑回归和高斯贝叶斯对人口普查数据集的分类与预测
基于逻辑回归和高斯贝叶斯对人口普查数据集的分类与预测原创 2023-04-04 13:56:56 · 3418 阅读 · 82 评论 -
机器学习:基于AdaBoost算法对信用卡精准营销建立模型(附案例实战)
AdaBoost算法 (Adaptive Boosting) 是一种有效而实用的Boosting算法,它以一种高度自适应的方法顺序地训练弱学习器。AdaBoost根据前一次的分类效果调整数据的权重,上一个弱学习器中错误分类样本的权重会在下一个弱学习器中增加,正确分类样本的权重会相应减少,并且在每一轮迭代时会向模型加入一个新的弱学习器。不断重复调整权重和训练弱学习器的过程,直到误分类数低于预设值或迭代次数达到指定最大迭代次数时,我们会得到一个强分类器。原创 2023-03-31 13:37:37 · 3418 阅读 · 101 评论 -
机器学习:LightGBM算法原理(附案例实战)
LightGBM是一个基于决策树的梯度提升框架,被广泛应用于机器学习任务,如分类、回归和排序等。LightGBM采用了一些独特的技术,例如基于直方图的决策树学习和GOSS(Gradient-based One-Side Sampling)等,以提高模型的训练效率和准确性。原创 2023-03-27 14:06:11 · 3654 阅读 · 119 评论 -
机器学习:基于KNN对葡萄酒质量进行分类
KNN对葡萄酒质量进行分类。该数据集采集于葡萄牙北部“Vinho Verde”葡萄酒,由于隐私和物流问题,只有理化变量特征是可以进行使用的(例如,数据集中没有关于葡萄品种、葡萄酒品牌、葡萄酒销售价格等的数据)。本篇notebook使用了红葡萄酒质量的数据集,并用KNN进行分类模型的训练。原创 2023-03-23 15:56:25 · 7341 阅读 · 168 评论 -
机器学习:基于逻辑回归对超市销售活动预测分析
使用逻辑回归对超市销售活动预测分析:导入数据、数据探索、处理非数值型变量、构造逻辑回归模型。原创 2023-03-20 16:38:53 · 4028 阅读 · 102 评论 -
机器学习:基于逻辑回归对优惠券使用情况预测分析
逻辑回归模型虽然名字中有回归两字,其本质却是分类模型。分类模型与回归模型的区别在于其预测的变量不是连续的,而是离散的一些类别,以最常见的二分类模型为例,分类模型可以预测一个人是否会违约、客户是否会流失、肿瘤是属于良性肿瘤还是恶性肿瘤等原创 2023-03-18 16:34:58 · 3749 阅读 · 82 评论 -
机器学习:逻辑回归模型算法原理(附案例实战)
逻辑回归模型虽然名字中有回归两字,其本质却是分类模型。分类模型与回归模型的区别在于其预测的变量不是连续的,而是离散的一些类别,以最常见的二分类模型为例,分类模型可以预测一个人是否会违约、客户是否会流失、肿瘤是属于良性肿瘤还是恶性肿瘤等原创 2023-03-15 19:14:14 · 3385 阅读 · 124 评论 -
机器学习:朴素贝叶斯模型算法原理(含实战案例)
朴素贝叶斯模型是一种非常经典的机器学习模型,它主要基于贝叶斯公式,在应用过程中会把数据集中的特征看成是相互独立的,而不需考虑特征间的关联关系,因此运算速度较快。相比于其他经典的机器学习模型,朴素贝叶斯模型的泛化能力稍弱,不过当样本及特征的数量增加时,其预测效果也是不错的。原创 2023-03-13 10:39:36 · 6907 阅读 · 133 评论 -
机器学习:基于神经网络对用户评论情感分析预测
神经网络模型的思想来源于模仿人类大脑思考的方式。神经元是神经系统最基本的结构和功能单位,分为突起和细胞体两部分。突起作用是接受冲动并传递给细胞体,细胞体整合输入的信息并传出。人类大脑在思考时,神经元会接受外部的刺激,当传入的冲动使神经元的电位超过阈值时,神经元就会从抑制转向兴奋,并将信号向下一个神经元传导。神经网络的思想是通过构造人造神经元的方式模拟这一过程。原创 2023-03-04 09:53:22 · 3620 阅读 · 61 评论 -
机器学习:学习KMeans算法,了解模型创建、使用模型及模型评价
K-Means算法是一种典型的基于划分的聚类算法,也是一种无监督学习算法。K-Means算法的思想很简单,对给定的样本集,用欧氏距离作为衡量数据对象间相似度的指标,相似度与数据对象间的距离成反比,相似度越大,距离越小。原创 2023-03-02 13:25:43 · 3407 阅读 · 90 评论 -
机器学习:基于朴素贝叶斯对花瓣花萼的宽度和长度分类预测
贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。而朴素贝叶斯分类是贝叶斯分类中最简单,也是常见的一种分类方法,对于分类问题,其实谁都不会陌生,日常生活中我们每天都进行着分类过程。例如,当你看到一个人,你的脑子下意识判断他是学生还是社会上的人;你可能经常会走在路上对身旁的朋友说“这个人一看就很有钱”之类的话,其实这就是一种分类操作原创 2023-02-28 13:08:53 · 3070 阅读 · 125 评论 -
机器学习:基于主成分分析(PCA)对数据降维
主成分分析算法(Principal Component Analysis, PCA)的目的是找到能用较少信息描述数据集的特征组合。它意在发现彼此之间没有相关性、能够描述数据集的特征,确切说这些特征的方差跟整体方差没有多大差距,这样的特征也被称为主成分。这也就意味着,借助这种方法,就能通过更少的特征捕获到数据集的大部分信息。原创 2023-02-25 10:20:15 · 10144 阅读 · 103 评论 -
机器学习:基于逻辑回归对某银行客户违约预测分析
逻辑回归用于二分分类问题,回归是一种极易理解的模型,就相当于y=f(x),表明自变量x与因变量y的关系。最常见问题有如医生治病时的望、闻、问、切,之后判定病人是否生病或生了什么病,其中的望闻问切就是获取自变量x,即特征数据,判断是否生病就相当于获取因变量y,即预测分类。原创 2023-02-23 10:41:27 · 11138 阅读 · 81 评论 -
机器学习:学习k-近邻(KNN)模型建立、使用和评价
k-近邻(kNN,k-Nearest Neighbors)算法是一种基于实例的分类方法。该方法就是找出与未知样本x距离最近的k个训练样本,看这k个样本中多数属于哪一类,就把x归为那一类。k-近邻方法是一种懒惰学习方法,它存放样本,直到需要分类时才进行分类,如果样本集比较复杂,可能会导致很大的计算开销,因此无法应用到实时性很强的场合。kNN算法的核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性。原创 2023-02-21 11:06:35 · 8102 阅读 · 25 评论 -
机器学习:基于支持向量机(SVM)进行人脸识别预测
逻辑回归可以分为线性与非线性,也可以根据类的个数分为二分类与多分类问题,使用时需要灵活应用,能够构造损失函数并求梯度,同时能够用算法实现并进行训练预测。事实上,细心的同学会发现,在逻辑回归中,我们发现是多个输入(即p个指标),最终输出一个结果(0或1),处理过程是输入乘上权重w加偏置b,再对结果用sigmoid 函数处理,这个过程其实很接近于神经网络了,而逻辑回归的模型更接近于感知机。原创 2023-02-20 16:48:41 · 8444 阅读 · 64 评论 -
决策树算法分析天气、周末和促销活动对销量的影响
决策树是一种预测模型,代表的是一种对象属性与对象值之间的一种映射关系,每一个节点代表某个对象,树中的每一个分叉路径代表某个可能的属性值,而每一个叶子节点则对应从根节点到该叶子节点所经历的路径所表示的对象的值。决策树仅有单一输出,如果有多个输出,可以分别建立独立的决策树以处理不同的输出。原创 2023-02-06 15:30:59 · 8302 阅读 · 34 评论 -
机器学习:线性回归分析女性身高与体重之间的关系
线性回归(Linear Regression)是利用称为线性回归方程的最小平方函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。这种函数是一个或多个称为回归系数的模型参数的线性组合。只有一个自变量的情况称为简单回归,大于一个自变量情况的叫做多元回归。原创 2023-02-03 13:00:26 · 2759 阅读 · 14 评论