
机器学习
文章平均质量分 82
小给给
毕业于长春理工大学,4年商业业务经验,数据分析是我一个最大的喜好,希望通过基本业务工作,能够挖掘新的思路和方法,与大家进行分享,希望大家给与意见及想法。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
数据分析师-机器学习之贝叶斯
数据分析师-机器学习之贝叶斯贝叶斯网络贝叶斯算法是有监督的学习算法,解决的是二分类和多分类问题。经典统计学与贝叶斯统计学经典统计学:总体信息:当前样本符合某种分布。比如抛硬币,二项分布,学生的某一科成绩符合正态分布。样本信息:通过抽样得到的部分样本的某种分布。抽样信息=总体信息+样本信息。基于抽样信息进行统计推断的理论和方法称为经典统计学。贝叶斯统计学:先验信息:抽样之前,有关推断问题中未知参数的一些信息,通常来自于经验或历史资料。基于总体信息+样本信息+先验信息进行统计推断的方法和理原创 2020-12-29 14:58:16 · 784 阅读 · 0 评论 -
数据分析师-机器学习之线性回归
数据分析师-机器学习之线性回归回归分析:回归:统计学分析数据的方法,目的在于了解两个或多个变量间是否相关、研究其相关方向与强度,并建立数学模型以便观察特定变量来预测研究者感兴趣的变量,回归分析可以帮助人们了解在自变量变化时因变量的变化量。一般来说,通过回归分析我们可以由给出的自变量估计因变量的条件期望。误差分布:真实值和预测值之间的差异:误差分布特点 (独立、同分布、 高斯分布)。线性回归的最小二乘法:在这里插入代码片最小二乘法回归存在问题:矩阵必须可逆。当特征数较多时,求逆运算原创 2020-12-10 16:13:15 · 420 阅读 · 0 评论 -
数据分析师-机器学习之聚类算法DBSCAN
机器学习之聚类算法DBSCAN1.DBSCAN是一个比较有代表性的基于密度的聚类算法。与划分和层次聚类方法不同,它将簇定义为密度相连的点的最大集合,能够把具有足够高密度的区域划分为簇,并可在噪声的空间数据库中发现任意形状的聚类。DBSCAN密度聚类思想:由密度可达关系导出的最大密度相连的样本集合,即为我们最终聚类的一个类别,或者说一个簇。DBSCAN中的几个定义:1.Ε邻域:给定对象半径为Ε内的区域称为该对象的Ε邻域;2.核心对象:如果给定对象Ε邻域内的样本点数大于等于MinPts,则称该对象为原创 2020-12-07 21:16:49 · 897 阅读 · 1 评论 -
数据分析师-机器学习之决策树算法
机器学习之决策树算法决策树(decision tree)是一种基本的分类与回归方法,决策树由结点(node)和有向边(directed edge)组成,结点类型:根结点(root node),内部结点(internal node)和叶结点(leaf node)。决策树的构建:(ID3、C4.5和CART)一.特征选择1.特征选择在于选取对训练数据具有分类能力的特征2.特征选择的标准是信息增益(information gain)二.决策树的生成计算信息增益:1.香农熵:计算所有类别所有可能原创 2020-12-07 21:16:36 · 244 阅读 · 0 评论 -
数据分析师-机器学习之聚类算法K-Means
机器学习之聚类算法1.k-Means算法K-均值(K-Means):K均值法是麦奎因(MacQueen,1967)提出的,这种算法的基本思想是将每一个样品分配给最近中心(均值)的类中。算法步骤:1.先从没有标签的元素集合A中随机取k个元素作为k个子集各自的中心2.分别计算剩下的元素到k个子集中心的距离,将这些元素分别划归到最近的子集3.根据聚类结果,重新计算中心(子集中所有元素各个维度的算数平均数)4.将集合A中全部元素按照新的中心然后再重新聚类5.重复以上步骤,直到聚类的结果不再发生变化原创 2020-12-07 21:16:22 · 337 阅读 · 0 评论 -
数据分析师-机器学习之knn
机器学习之knnknnK最近邻(kNN,k-Nearest Neighbor): k近邻法(k-nearest neighbor, k-NN)是1967年提出的一种基本分类与回归方法。K最近邻分类算法是数据挖掘分类技术中最简单的方法之一。所谓K最近邻,就是k个最近的邻居的意思,每个样本都可以用它最接近的k个邻居来代表。kNN算法的核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性。工作原理:存在一个样本数据集合,也称作原创 2020-12-07 21:16:02 · 259 阅读 · 0 评论