机器学习
文章平均质量分 90
理论+代码+实验
乔大将军
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
自然语言处理-词向量模型-Word2Vec
计算机只认识数值数字,那么怎么认识自然语言呢???答案就是将自然语言转换转换成数值,就词向量。先来考虑一个问题,如何能将文本向量化呢???看起来比较抽象,可以先从人的角度来观察。如何来描述一个人呢???只用身高或者体重,还是,综合其各项指标呢??例如:Kevin Durant 身高211cm, 体重90kg,这能完全描述他吗???当然不能,还有NBA超巨,全明星,死神,等等描述。1. 初始化磁向量矩阵。原创 2024-04-08 17:41:54 · 1521 阅读 · 1 评论
-
关联规则(理论及实例)
## 自定义一份购物数据集print(df)设置支持度(support)来选择频繁集选择最小支持度为50%计算规则可以指定不同的衡量标准与最小阈值针对选择这几条结果就比较有价值了洋葱和马铃薯 汉堡和马铃薯 可以搭配着来卖如果洋葱和汉堡在购物篮中,顾客买马铃薯的可能性也比较高,如果篮子里面没有,可以推荐一下。原创 2024-04-05 17:31:34 · 2375 阅读 · 0 评论
-
神经网络(深度学习,计算机视觉,得分函数,损失函数,前向传播,反向传播,激活函数)
神经网络是一种有监督的机器学习算法,神经网络当成一种特征提取的方法,神经网络追求是什么样的的权重参数适合当前任务。原创 2024-03-20 18:48:47 · 2425 阅读 · 11 评论
-
SVM-支持向量机实验分析(软硬间隔,线性核,高斯核)
学习本文之前要具有SVM支持向量机的理论知识,可以参考支持向量机(Support Vector Machines)本文对比了传统分类模型和SVM支持向量机分类模型,软硬间隔差别,非线性支持向量机,核技巧,高斯核函数的参数比较。原创 2024-03-13 18:48:31 · 1369 阅读 · 0 评论
-
聚类实验分析(KMeans,DBSCAN,图片分割,解决半监督问题,评估方法,K值选取)
在阅读本文前需要了解聚类算法的原理,可以参考聚类算法理论篇(K-means,DBSCAN原理)聚类算法(K-means)代码实现(鸢尾花数据集)。本文主要分析:1.KMeans和DBSCAN算法2. KMeans的评估方法和K值选取12. 聚类算法用于图像分割3. 聚类算法可用于解决半监督问题4. 聚类的评估方法。原创 2024-02-18 16:46:20 · 1261 阅读 · 0 评论
-
数据降维方法-主成分分析(PCA)
主成分分析(Principal Component Analysis)用途:降维中的常用手段目标:提取最有价值的信息(基于方差)问题:降维后的数据的意义??原创 2024-04-10 19:22:30 · 1086 阅读 · 1 评论 -
贝叶斯算法代码实现以及运用实例-垃圾邮件分类
阅读本文之前,需要懂得贝叶斯算法的原理,可以参考机器学习算法的另一个分支-贝叶斯算法原理(贝叶斯要解决什么问题)。本文实现了,贝叶斯算法,包括邮件预处理,将文本转换成词向量,语料库的构建,训练和测试模块实现,即:先验概率的计算,测试邮件在垃圾邮件中和正常邮件的词频统计。原创 2024-04-01 17:36:56 · 1430 阅读 · 0 评论 -
机器学习算法的另一个分支-贝叶斯算法原理(贝叶斯要解决什么问题)
1. 贝叶斯:英国数学家。1702年出生于伦敦,做过神甫。贝叶斯在数学方面主要研究概率论.对于统计决策函数、统计推断、统计的估算等做出了贡献。2. 贝叶斯方法源于他生前为解决一个“逆概”问题写的一篇文章3. 生不逢时,死后他的作品才被世人认可。原创 2024-03-28 16:58:15 · 1003 阅读 · 0 评论 -
神经网络代码实现(用手写数字识别数据集实验)
读者需要了解神经网络的基础知识,可以参考神经网络(深度学习,计算机视觉,得分函数,损失函数,前向传播,反向传播,激活函数)本文为大家详细的描述了,实现神经网络的逻辑,代码。并且用手写识别来实验,结果基本实现了神经网络的要求。原创 2024-03-26 17:43:46 · 1402 阅读 · 1 评论 -
随机森林和集成算法实验分析
阅读本文之前需要读者具有关于随机森林和集成算法的理论基础,可以学习集成算法理论(随机森林,AdaBoost,Xgboost,Stacking模型)获得。本文将一些经典的集成算法进行了实验分析。包含:Bagging策略,随机森林,投票策略,OOB策略,特征重要性展示,Boosting策略,AdaBoost,GBDT,模型提前停止策略,Stacking策略以及一些决策边界展示和参数对比。原创 2024-03-08 15:42:03 · 1067 阅读 · 1 评论 -
集成算法理论(随机森林,AdaBoost,Xgboost,Stacking模型)
集成算法(Enseamable learning)集成算法一般考虑树模型,KNN就不太适合目的:让机器学习效果更好,单个不好,一起干,三个诸葛亮Bagging:训练多个分类器取平均,,其中表示分类器的个数,表示单个训练器。Boosting:从弱学习器开始加强,通过加权的方式来进行训练公式:可以看出这种方法的最终结果是在上个结果的基础上加上一个补充值(个人理解)表示在上个结果加上此次补充后结果的损失函数,看是否让其变小了。Stacking:聚合多个分类或者回归模型(可以分阶段来做);原创 2024-03-04 15:37:51 · 1548 阅读 · 1 评论 -
决策树实验分析(分类和回归任务,剪枝,数据对决策树影响)
本文主要分析了决策树的分类和回归任务,对比一系列的剪枝的策略对结果的影响,数据对于决策树结果的影响。介绍使用graphaviz这个决策树可视化工具。原创 2024-03-01 19:04:51 · 1764 阅读 · 5 评论 -
决策树代码实现
本文需要读者有对决策树有一定的基础,可以参考决策树原理(决策树算法概述,熵,信息增益,信息增益率,gini系数,剪枝,回归、分类任务解决)原创 2024-02-26 18:50:04 · 2548 阅读 · 1 评论 -
模型评估方法(交叉验证,混淆矩阵,阈值,ROC曲线)
工具包地址:https://scikit-learn.org这里有sklearn各种算法,数据集的调用方法,例子,读者可以使用右上角的搜索框。原创 2024-01-18 16:51:40 · 2751 阅读 · 1 评论 -
逻辑回归(Logistic regression算法原理讲解)
逻辑回归虽带有回归二字,但是是经典的二分类算法。机器学习算法选择:先逻辑回归(常用)再用复杂的,能简单的还是简单的。逻辑回归的决策边界也可以是非线性的。如下图所示:逻辑回归是由线性回归转换而来,那么怎么将回归预测出的具体的值转换成一个分类的值呢?原创 2024-01-24 12:08:49 · 748 阅读 · 1 评论 -
逻辑回归代码实现
假设有100个样本点,每个样本有3个特征值,那么其数据维度为 data:100X3,经过计算后的结果是概率值为 P:100X3,那么其权值维度为theta:3X3,data x theta = P,再根据其概率值判断类别。当选择负类标签是,即把标签为0分类正确时,其sigmoid值越接近0,表示分类效果越好,损失越小,但是对应的loss值却变大,所以其sigmoid变为1-sigmoid。当选择正类标签时,即把标签为1分类正确时,其sigmoid值越接近1,表示分类效果越好,损失越小。原创 2024-01-28 20:45:16 · 1078 阅读 · 2 评论 -
聚类算法(K-means)代码实现(鸢尾花数据集)
本文主要实现K-means这一算法,根据聚类算法理论篇(K-means,DBSCAN原理)可知:输入:数据dataK值输出:簇组其工作流程:1.根据K值,随机创建K个初始化质心点(Initialozation Randomly selecr K center points。2. 算出所有样本点到质心点的距离,得到样本属于那个簇。3. 更新,根据簇内样本重新算出簇内的质心。4. 重复执行2,3步,重新划分簇类,直至质心不在变化。#1.先随机选择K个中心点#最近的中心点#2.开始训练。原创 2024-02-06 19:46:51 · 2715 阅读 · 1 评论 -
聚类算法理论篇(K-means,DBSCAN原理)
聚类算法是一种无监督的机器学习方法,其数据没有标签。简单来说,聚类就是把相似的东西分在在一组。但是因为没有标签,如何评估学习的好坏非常困难,而且如何调参也是不易。本文主要介绍两种聚类算法:K-means和DBSCAN。原创 2024-02-04 17:26:47 · 1399 阅读 · 1 评论 -
用数学的角度分析线性回归
得到的值是一个具体的值。比如去银行贷款,已经确定能贷,0~10w这样的一个可能的值。线性回归是一个有监督的学习过程,输入的数据有标签,即模型训练参考一个指标。为什么用使用极大似然估计:误差服从正态分布,求解的参数和数据组合后最好是真实值。随机梯度下降:每次找一个样本,迭代速度快,但不一定每次都朝着收敛的方向。是独立并且具有相同的分布,服从均值为0方差为。可以看出,误差在均值左右的情况是常见的。即学习过程(优化算法):梯度下降。(矩阵的平方:矩阵的转置乘本身)(梯度是向上的,加负号使其向下)原创 2024-01-15 14:26:37 · 516 阅读 · 0 评论 -
线性回归实验分析(不同梯度下降策略,学习率,多项式回归,模型复杂度,数据量对结果影响,正则化)
算法推导过程中已经给出了求解方法,基于最小二乘法直接求解,但这并不是机器学习的思想,由此引入了梯度下降的方法。本次实验重点讲解了其中每一步的流程与实验对比分析。主要内容:1. 线性回归方程实现2. 梯度下降效果3. 对比不同的梯度下降策略4. 建模曲线分析5. 过拟合与欠拟合6. 正则化上述的方法可以当作是一种巧合,是人算出来的,这不是机器学习的思想。机器学习是一种迭代思想,逐步学习,达到最佳的方法。可以参考用数学的角度分析线性回归。原创 2024-01-23 14:54:09 · 1620 阅读 · 1 评论 -
逻辑回归实验分析(鸢尾花数据集,二分类,多分类)
之前在线性回归中,得到具体的回归值,如果此时任务要做一个二分类怎么办呢?这里先做一个传统的二分类任务,先是二分类 把Virginica种类打上标签为1 其它的为0,先做一个二分类。制作出像棋盘一样的图形,有两个特征,选择petal length , petal width这两种。直接把概率算出来,前面不是Virginica这种花的概率,后者是Virginica这种花的概率。我们能看到随着peta width这个特征值越大,是Virginica这个种类的花概率越大。回归是如何变成分类的呢?原创 2024-02-01 16:28:25 · 2011 阅读 · 1 评论 -
支持向量机(Support Vector Machines)
理解支持向量机(Support Vector Machines)的一些基础理论知识,如支持向量(Support Vector)、分隔超平面(Separating hyperplane)等重要概念的求解流程,进而掌握SMO高效优化算法的优化思想,以此对现有的数据进行优化,提升分类效果。需要找到一个复杂的升维函数,这往往是费时费力的,引入kernel Trick(核技巧),直接获得高维度的向量差异度。以上说的都是硬间隔的决策超平面的求解方法,当出现异常点时防止过拟合引入软间隔。原创 2023-12-26 17:47:46 · 1323 阅读 · 0 评论 -
线性回归-BOSTON房价预测为例
在这里,选取房屋价格(MEDV)、每个房屋的房间数量(RM)两个变量进行回归,其中房屋价格为目标变量,每个房屋的房间数量为特征变量。fit_intercept:表示是否队训练数据进行中心化,若为false,则表示输入的数据已经进行了中心化处理,下面的过程里将不需要在进行中心化处理。通过散点图可以看出,房屋价格(MEDV)、每个房屋的房间数量(RM)存在着一定的线性变化趋势,即每个房屋的房间数量越多,房屋价格越高。# 绘制房屋价格(MEDV)、每个房屋的房间数量(RM)的散点图。前提:x y 线性相关。原创 2023-12-04 21:21:41 · 1322 阅读 · 0 评论 -
决策树原理(决策树算法概述,熵,信息增益,信息增益率,gini系数,剪枝,回归、分类任务解决)
本文需要了解树这一数据结构的基础知识。决策树:如下图所示从根节点开始一步步走到叶子节点(决策)所有的数据最终都会落到叶子节点有监督学习提个问题: 怎样做分类?怎么做回归?每一个条件都可以当作一个特征,根据特征判断。那么提出一个问题:条件1和条件2的位置是否可以对调,或者凭什么条件1当作根节点?就像NBA球队,有首发,有替补。根据什么度量?那么就让给我们继续看下去吧。原创 2024-02-21 18:05:39 · 1901 阅读 · 0 评论
分享