机器学习
文章平均质量分 82
WeiJingYu.
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
机器学习概述与 KNN 算法详解代码演示
Scikit-learn是Python的机器学习库,提供分类、回归和聚类三大核心功能。分类用于识别类别(如垃圾邮件检测),回归预测连续值(如股价预测),聚类实现数据自动分组(如客户细分)。该库基于NumPy和SciPy,具有简洁API设计。KNN(K-Nearest Neighbors)是其重要算法,通过邻近样本进行分类预测。安装1.0.2版本后,可通过官方文档查看API参考,其中包含算法实现细节和可视化示例。原创 2025-07-25 21:48:18 · 1508 阅读 · 0 评论
-
机器学习概述与 KNN 算法详解
监督学习:利用带有标签的训练数据(即已知输入和对应输出)进行学习,如分类、回归问题。无监督学习:处理无标签数据,通过挖掘数据本身的结构或规律完成任务,如聚类、降维。半监督学习:结合少量标签数据和大量无标签数据进行学习,适用于标签获取成本较高的场景。强化学习:通过与环境的交互,基于 “奖励” 或 “惩罚” 信号不断调整行为策略,以实现长期收益最大化,如游戏 AI、机器人控制。原创 2025-07-24 22:42:33 · 1032 阅读 · 0 评论
-
KNN算法实现图片的识别
本文介绍了使用OpenCV实现KNN算法进行手写数字识别的过程。首先将5000张20×20的手写数字图像切分为训练集和测试集,每类数字各250个样本。将图像展平为400维特征向量后,创建对应的数字标签(0-9)。通过OpenCV的KNN模型(设置k=3)进行训练和预测,最终计算模型在测试集上的准确率。该方法实现了基础的图像分类功能,为后续升级为更复杂的模型(如使用scikit-learn)奠定了基础。原创 2025-07-28 00:03:17 · 1222 阅读 · 0 评论 -
机器学习--数据清洗—(续篇)
本文摘要: 该代码实现了矿物数据分类的完整机器学习流程。首先对原始数据进行预处理,包括删除异常类别、缺失值检测、标签编码和Z标准化。然后采用随机森林算法进行缺失值填充,通过训练集数据预测并填充测试集缺失值。接着使用SMOTE算法解决样本不均衡问题,并保存处理后的数据集。最后实现了6种分类算法(逻辑回归、随机森林、SVM、AdaBoost、朴素贝叶斯和XGBoost)进行矿物类型预测,通过网格搜索优化参数,并评估各模型的召回率和准确率等指标。所有结果保存为JSON格式文件,便于后续分析和比较不同填充方法与分类原创 2025-08-20 23:33:45 · 1271 阅读 · 0 评论 -
机器学习--数据清洗
本文构建了一个智能矿物识别系统的数据处理流程,重点解决数据清洗和缺失值填充问题。首先对矿物数据进行预处理,包括异常值处理、标准化和数据集划分。针对数据缺失问题,提出了6种填充方法:完整数据保留、均值填充、中位数填充、众数填充、线性回归和随机森林预测,并采用按矿物类别分别填充的策略。同时使用SMOTE算法处理样本不均衡问题。最终将处理后的数据保存为训练集和测试集,为后续矿物分类模型训练奠定数据基础。整个流程完整覆盖了数据清洗、特征处理和样本均衡等关键环节。原创 2025-08-17 22:54:27 · 2941 阅读 · 0 评论 -
机器学习--PCA降维
简单来说:指定整数,表示要降维到的目标,【比如 10 维的数据,指定 n_components=5,表示将 10 维数据降维到 5 维】如果为小数,表示累计方差百分比。所谓白化,就是对降维后的数据的每个特征进行归一化,让方差都为 1.对于 PCA 降维本身来说,一般不需要白化。将一组 N 维向量降为 K 维(K 大于 0,小于 N),其目标是选择 K 个单位(模为 1)正交基,使得原始数据变换到这组基上后,各字段两两间协方差为 0,而字段的方差则尽可能大(在正交的约束下,取最大的 K 个方差)原创 2025-08-17 11:13:56 · 1268 阅读 · 0 评论 -
机器学习——DBSCAN
本文介绍了DBSCAN密度聚类算法的原理、参数调优及实现过程。DBSCAN通过定义核心对象、E邻域和密度可达等概念,能够发现任意形状的聚类并识别噪声点。文中详细说明了Python中sklearn.cluster.DBSCAN的参数设置,包括eps邻域半径、min_samples最小样本数等关键参数的影响。同时提供了完整的代码实现,包括数据预处理、DBSCAN模型训练、轮廓系数评估等步骤,并对比了KMeans与DBSCAN在真实数据集上的表现。最后通过标签对齐方法解决了聚类标签与真实标签的映射问题,采用分类指原创 2025-08-10 13:06:33 · 1444 阅读 · 0 评论 -
K-Means 聚类
K-Means聚类算法摘要 本文介绍了K-Means聚类算法的核心原理、参数设置和Python实现。K-Means是一种无监督学习算法,通过迭代计算样本与质心距离实现数据聚类。重点参数包括n_clusters(聚类数)、init(初始化方法)和max_iter(最大迭代次数)。文章详细解析了scikit-learn中KMeans类的参数配置,并提供了完整的Python实现代码,包括数据读取、轮廓系数评估和可视化。通过实例演示了如何寻找最优K值,并使用轮廓系数评估聚类效果。代码展示了从数据预处理到模型训练、评原创 2025-08-08 23:12:04 · 1237 阅读 · 0 评论 -
机器学习——SVM
没有构建曲线的方法实现数据的分类。原来数据在2维平面, 将数据通过映射到3维空间,然后用屏幕分割。桌上有两种颜色的球,要求用一根棍分开它们,尽量在放更多球之后仍然适用。nn神经网络也就是深度学习会有弯曲的曲线构成,后面说神经网络。1所有的训练数据集的点,离公式最近的数据。2在 w 为何值的情况是的 y 最大。最小二乘法是求极值的无约束条件。3.为什么学习SVM?2.怎么学习SVM?1.SVM 是什么?算完后会有距离的结果。四·SVM最难的部分。原创 2025-08-06 14:57:30 · 373 阅读 · 0 评论 -
机器学习——贝叶斯
本文系统介绍了贝叶斯算法及其应用。首先阐述了贝叶斯定理解决条件概率问题的原理,通过袋中取球的正向/逆向概率问题说明其应用场景。重点推导了校园场景下学生性别判断的贝叶斯计算过程,展示了先验概率与条件概率的综合运用。随后详细讲解了朴素贝叶斯分类器在数据集预测中的实现步骤,包括先验概率计算、特征条件概率估计和后验概率比较。最后提供了sklearn库中MultinomialNB类的参数说明及完整代码实现,包括数据加载、模型训练与评估。全文通过理论推导与实例计算相结合的方式,完整呈现了贝叶斯算法从基础原理到实际应用的原创 2025-08-05 16:35:27 · 1222 阅读 · 0 评论 -
机器学习——随机森林
本文介绍了集成学习中的随机森林算法及其应用。随机森林通过构建多个决策树进行分类或回归,具有准确率高、抗噪性强、不易过拟合等优点,但存在计算量大、可解释性差的缺点。文章详细解析了随机森林的关键参数,包括决策树数量(n_estimators)、特征最大数量(max_features)等,并提供了Python实现代码示例。代码展示了数据划分、模型训练、评估(含混淆矩阵可视化)以及特征重要性分析的全流程,最后通过水平条形图直观呈现了最重要的10个特征。原创 2025-08-05 16:11:46 · 1022 阅读 · 0 评论 -
机器学习——决策树
摘要:本文介绍了sklearn.tree.DecisionTreeClassifier决策树分类器的核心参数及其功能。重点参数包括:criterion(分裂标准)、max_depth(树深度)、min_samples_split(节点最小样本数)等控制树结构的参数,以及class_weight(类别权重)、random_state(随机种子)等辅助参数。这些参数共同影响决策树的生长过程、防过拟合能力和模型性能。文末展示了使用DecisionTreeRegressor进行回归的代码示例,包括数据读取、模型训练原创 2025-08-03 20:00:21 · 1098 阅读 · 0 评论 -
机器学习——决策树
C4.5决策树算法采用信息增益率作为特征选择标准,改进了ID3算法单纯使用信息增益的不足。信息增益率通过引入分裂信息量来消除属性取值数目带来的偏差,有效避免了选择取值较多属性的倾向。该指标综合考虑了属性的信息增益与其固有信息量,使特征选择更加合理。C4.5算法还支持连续属性处理和缺失值处理,增强了决策树的实用性和泛化能力。原创 2025-08-03 19:25:04 · 356 阅读 · 0 评论 -
机器学习—线性回归
文章摘要:本文介绍了线性回归的基本概念与应用。线性回归用于分析变量间的定量关系,包括因果关系和平行关系。一元线性回归模型y=β0+β1x+ε中,β0、β1为参数,ε为误差项。多元线性回归扩展至多个自变量。误差项具有独立同分布特点,且服从期望为0、方差相同的高斯分布,是回归分析的重要基础。通过工资与贷款额度的实例,说明了回归模型的实际应用。原创 2025-07-27 15:46:04 · 630 阅读 · 0 评论 -
线性回归的应用
本文介绍了sklearn.linear_model.LinearRegression模块的线性回归应用。内容分为一元和多元线性回归两部分:1)一元线性回归通过广告投入预测销售额,包括数据读取、散点图绘制、模型训练及预测,并解释R方评价指标;2)多元线性回归通过体重和年龄预测血压收缩,展示相关系数矩阵、模型构建及多变量预测。两个案例均详细说明了参数设置、模型训练、结果预测和评估过程,包括coef_和intercept_等关键属性的使用方法,完整呈现了线性回归的实践流程。原创 2025-07-30 18:05:18 · 760 阅读 · 0 评论 -
逻辑回归的应用
【代码】逻辑回归的应用。原创 2025-07-31 21:34:37 · 418 阅读 · 0 评论 -
逻辑回归——银行贷款案例分析
(标准差(standard deviation )是统计学里用于衡量数据离散程度的指标,反映数据相对于均值的波动情况,公式及解读如下:)银行只会看1的那行recall的那一列注意是0.54不到99%所以银行是不会用这个模型的,如果你能做到就可以去银行应聘了。其中V1—V28都是经过脱敏处理的,为的就是保护用户数据安全,数据是存放数据库里的,数据库在服务器里。也叫离差标准化,是对原始数据的线性变换,使结果映射到([0,1])区间。class0表示可以贷款1表示不可贷款。1.Z标准化,2.归一化0~1。原创 2025-07-31 23:51:13 · 587 阅读 · 0 评论 -
逻辑回归——银行案例(有参数,无处理,下采样,过采样)
也会避开我们刚刚求的第一个式子w₁ = [1,0,0,0] ——x = [1,1,1,1]——>y = θ₀ + θ₁x₁ + θ₂x₂ + θ₃x₃ + θ₄x₄--y '= 1 + 1 + 0 + 0 + 0 = 2这个,L1,L2是R(W)的,w₁ = [1,0,0,0]代入W即可,发现w₁>w₂,因为要求最小值所以要选w2。输入为:x = [1,1,1,1] 现有 2 种不同的权重值,输入为:x = [1,1,1,1] 现有 2 种不同的权重值,真实值为 1,我预测对了多少个?原创 2025-08-02 00:19:26 · 1028 阅读 · 0 评论 -
机器学习—逻辑回归
逻辑回归是处理二分类问题的线性模型,通过sigmoid函数将线性输出映射到[0,1],输出事件发生概率,广泛用于预测与分类。原创 2025-07-29 21:46:08 · 353 阅读 · 0 评论 -
机器学习——决策树
决策树是一种有监督学习算法,通过特征划分构建树形分类模型。其核心优势在于基于单一特征快速决策,比逻辑回归等算法效率更高。关键概念包括根节点、非叶节点和叶节点。ID3算法使用信息增益作为分裂标准,通过计算熵值衡量节点纯度。示例分析比较天气、温度等特征的信息增益,其中天气特征的信息增益最大(0.247),是最优划分属性。决策树算法还包括C4.5和CART等变种,但ID3通过熵值计算实现高效特征选择。原创 2025-08-03 17:27:24 · 523 阅读 · 0 评论
分享