
机器学习
文章平均质量分 92
data大柳
在大数据的海洋,一条大汉在裸泳,游得飞快(∩_∩)
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
异常检测主要方法总结
详细陈述预测及异常检测方法。原创 2022-10-17 14:38:15 · 11053 阅读 · 1 评论 -
一文了解社区发现算法
最近在调研社区发现图聚类在区域划分中的应用,将一些编辑汇总的信息记录如下。社团划分了解社区是什么在社交网络中,用户相当于每一个点,用户之间通过互相的关注关系构成了整个网络的结构。在这样的网络中,有的用户之间的连接较为紧密,有的用户之间的连接关系较为稀疏。其中连接较为紧密的部分可以被看成一个社区,其内部的节点之间有较为紧密的连接,而在两个社区间则相对连接较为稀疏。整个整体的结构被称为社团结构。如下图,圆点和方点呈现出社区的结构,用圆点和方点对其进行标注,整个网络被划分成了两个部分,其中,这两个部分的原创 2021-09-18 11:52:36 · 3626 阅读 · 0 评论 -
数学期望、方差、标准差、协方差、残差、均方差、均方误差、均方根误差、均方根值对比分析及python实现
内容较多,如有错误之处请评论区留言以便更正,内容仅供参考。文章目录期望(Expected value)意义定义离散型连续型期望与平均值的区别方差(Variance)案例概率论方差统计学方差样本方差python实现代码标准差(Standard Deviation)方差和标准差的区别python实现代码协方差(Covariance)定义相关系数协方差矩阵案例实现残差均方误差(mean-square error, MSE)python实现代码均方根误差(root mean squared error,RMS.原创 2021-02-18 20:56:08 · 6235 阅读 · 1 评论 -
机器学习中什么算法最好?了解“没有免费的午餐”定理
这里天在公众号看了几篇深度学习的文章,发现有些人对深度学习仍然迷之自信,让我想起了网上看过的一个网友分享的自己的经历(此处应有哭笑不得的表情):作为从业人员,我兴奋于目前已有的多种深度学习框架,如深度神经网络、卷积神经网络、深度置信网络以及递归神经网络等。也很高兴深度学习目前取得的一些巨大成功,并且在计算机视觉、语音识别、自然语言处理、音频识别及生物信息学等领域的落地和应用也都获取了极好的效果。但我们也应该清楚,深度学习是好,但也不能草率的有这种想法:认为任何场景任何数据只要套用了深度学习,肯定能学习出原创 2021-02-13 23:59:19 · 1048 阅读 · 0 评论 -
机器学习偏差、方差、泛化误差的完整总结
机器学习算法的最终目标是最小化期望损失风险(即机器学习模型在任意未知测试样本上的表现),但由于数据的真实分布我们通常是不知道的,我们可用的信息来自于训练数据,因此,机器学习的学习目标往往会转化为最小化经验风险。优化算法对经验风险最小化问题进行求解,并在算法结束的第TTT次迭代中输出模型。我们希望所学习到的该模型对未知数据预测的误差尽可能小,这里的误差我们就将其定义为机器学习算法的泛化误差(generalization error):Rexp(f^)=EP[L(Y,f^(X))]=∫X×YL(y,f^(x)原创 2021-02-10 23:52:38 · 4652 阅读 · 3 评论 -
一文完全搞懂损失函数,期望风险,经验风险,结构风险
引入机器学习中,我们需要一定的准则来评估不同机器学习模型的好坏,这里引入损失函数与风险函数的概念。损失函数:评估模型单次预测的好坏风险函数:度量平均意义下模型的好坏损失函数与风险函数损失函数的定义监督学习问题是在假设空间F\mathcal{F}F中选取模型fff作为决策函数,对于给定的输入XXX,由f(X)f(X)f(X)给出相应的输出YYY,预测值f(X)f(X)f(X)与真实值YYY通常情况下是不一致的,会有所差距,而损失函数(loss function)或代价函数(cost funct原创 2021-02-04 16:02:36 · 6818 阅读 · 0 评论 -
机器学习复盘(5):简单而实用的线性模型
线性模型算是形式最简单的机器学习方法了,简单而实用,实际上,从博主本身经历来看,不论是大学里数学或者统计学等专业的课程内容设置,还是市面上很多的算法或者机器学习书籍,开篇或者很大篇幅都给了线性模型,其主要原因一是因为很多简单情形下线性模型已经足以应对,二是因为线性模型是很多复杂模型的基础,可以通过引入层级结构或高维映射等方法将线性模型推广至“广义线性模型”或“非线性模型”(比如神经网络,神经网络的每个神经元就是一个广义的线性模型)下面主要结合西瓜书来详细盘点一下线性模型。基本形式给定由 d\bolds原创 2021-02-01 15:49:30 · 519 阅读 · 0 评论 -
机器学习复盘(4):监督学习完整总结
监督学习的应用主要为分类问题和回归问题。分类问题分类问题是监督学习的核心问题,在监督学习中,当输出变量 f(x) 取有限个离散值时,预测问题就成为了分类问题。这事,输入变量 x 可以是离散的,也可以是连续的。监督学习从数据中学习一个分类模型或分类决策函数,称为分类器,分类器对新的输入进行输出的预测,称为分类。可能的输出称为类别。分类的类别为两个时,称为二类分类问题,分类的类别为多个时,称为多类分类问题。分类问题包括学习(训练)和分类(预测)两个过程。在学习过程中,根据已知的训练数据利用有效的学习原创 2021-01-27 21:08:16 · 1266 阅读 · 0 评论 -
机器学习复盘(3):完整的机器学习流程、建模步骤
要使用机器学习,首先得先了解机器学习基本流程,对于机器学习的第一步,很多教材或者帖子都是从收集数据开始。从始机器学习多年了,真实的机器学习项目也做了很多,机器学习的实际应用中,我认为机器学习的第一步应该是理解业务和定义业务。这里我比较推崇CRISP-DM,全称是Cross-Industry Standard Process For Data Mining,即“跨行业数据挖掘标准流程”。机器学习只是一项技术,应用到实际问题中来必然脱离不了所依托的背景知识或者业务逻辑,比如诈骗用户识别、商品的智能推荐、人脸识别原创 2021-01-25 21:49:34 · 2596 阅读 · 0 评论 -
机器学习复盘(2):机器学习主要应用场景及典型案例
人工智能(AI)和机器学习(ML)正在成为主流,有越来越多的企业正在利用这种模仿人类思维的技术来吸引客户并加强业务运营。而这种趋势只会越来越受欢迎。什么时候需要机器学习机器学习的出现主要是为了解决一些超出人类能力的任务。有些任务人工计算或者直接编码较为复杂。面对庞大且复杂的数据集的分析,比如天文数据,气象预报,基因组数据分析,网络搜索引擎和电子商务等。特别是互联网时代,随着数据的爆炸式在增长,隐含在数据里的有意义、有价值的信息过于庞大复杂,面对越来越庞大的数字金矿,从中获取信息已经远远超出了人类的理解能原创 2021-01-25 16:43:15 · 2454 阅读 · 0 评论 -
机器学习复盘(1):机器学习分类总览
机器学习任务的类别是非常丰富的,为了对机器学习有个全面的认识,下面从多个维度对机器学习的类别进行梳理:1、从学习目标的角度机器学习可以大致分为回归、分类、排序、有结构预测等类别。这些类别的主要差别在于机器学习模型输出的格式,以及如何衡量输出的准确程度。回归问题。模型的输出值一般是一个连续的标量,人民通常用模型输出与真实值之间的最小平方误差来衡量模型的准确程度。分类问题。模型的输出一般是一个或者多个类别标签,人们通常使用0-1误差及损失函数(如交叉熵、Hinge函数、指数函数等)来衡量模型的准确程度原创 2021-01-22 21:27:16 · 1586 阅读 · 0 评论 -
机器学习:算法中的泛化误差、偏差、方差、噪声的理解(超详细)
摘要:在现实任务中,我们往往有多种学习算法可供选择,甚至对同一个学习算法,当使用不同的参数配置时,也会产生不同的模型,那么,我们该如何选用哪一个学习算法,使用哪一种参数配置呢?这就是机器学习中的“模型选择”问题,理想的解决方案是对候选模型的泛化误差进行评估,然后选择泛化误差最小的那个模型。泛化误差意义以前在机器学习中一直使用经验风险(训练误差)来逼近真实风险,但事实上多数情况经验风险并不能够准确逼近真实风险。后来业界就提出了泛化误差的概念(generalization error),在机器学习.原创 2020-08-04 19:58:54 · 19374 阅读 · 6 评论 -
推荐算法总览(完整总结)
目录1. 什么是推荐算法2. 推荐算法的目的3.推荐算法的条件4. 推荐算法分类4.1 基于流行度的推荐算法4.2基于内容的推荐算法4.3 基于关联规则的推荐算法4.4 基于协同过滤的推荐4.4.1基于用户(User-based)的推荐4.4.2基于物品(Item-based)的推荐4.4.3 协同过滤算法总结4.5 基于模型的推荐算法4...原创 2020-01-15 15:20:46 · 8509 阅读 · 0 评论 -
机器学习里数据预处理及特征工程总结(超详细)
机器学习里有一句名言:数据和特征决定了机器学习的上限,而模型和算法的应用只是让我们逼近这个上限。这个说法形象且深刻的提出前期数据处理和特征分析的重要性。这一点从我们往往用整个数据挖掘全流程60%以上的时间和精力去做建模前期的数据处理和特征分析也能看出。那么疑问来了,这超过60%时间和精力我们都用在哪了?本文基于以往的知识储备以及实际的项目经验,我做一个总结。主要包括三部分,一是获取数据、数据抽样,二是数据探索,三是数据预处理与清洗。原创 2017-11-30 11:58:11 · 16593 阅读 · 4 评论 -
详细:分类算法之逻辑回归详解
逻辑回归(Logistic Regression, LR)又称为逻辑回归分析,是分类和预测算法中的一种。通过历史数据的表现对未来结果发生的概率进行预测。原创 2017-12-06 18:24:30 · 9440 阅读 · 0 评论 -
随机森林r语言实现(超详细)
随机森林就是用随机的方式建立一个森林,森林里面有很多的决策树,并且每棵树之间是没有关联的。得到一个森林后,当有一个新的样本输入,森林中的每一棵决策树会分别进行一下判断,进行类别归类(针对分类算法),最后比较一下被判定哪一类最多,就预测该样本为哪一类。 随机森林算法有两个主要环节:决策树的生长和投票过程。随机森林有什么优缺点。R语言如何实现。原创 2017-12-25 11:49:29 · 109347 阅读 · 76 评论 -
几种交叉验证法(超详细)
交叉验证交叉验证是一种用来评价一个训练出的模型是否可以推广到另一个数据结构相同的数据集上的方法。主要用于PCR 、PLS 回归建模等建模应用中。主要用于估计一个预测模型在实际数据应用中的准确度。它是一种统计学上将数据样本切割成较小子集的实用方法。首先在一个子集上做训练, 而其它子集则用来做后续对此分析的确认及验证。原创 2018-01-23 12:17:08 · 53180 阅读 · 3 评论 -
python情感分析(真实案例完整流程)
情感分析:又称为倾向性分析和意见挖掘,它是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程,其中情感分析还可以细分为情感极性(倾向)分析,情感程度分析,主客观分析等。情感极性分析的目的是对文本进行褒义、贬义、中性的判断。在大多应用场景下,只分为两类。例如对于“喜爱”和“厌恶”这两个词,就属于不同的情感倾向。背景交代:爬虫京东商城某一品牌红酒下所有评论,区分好评和差评,提取特征词,原创 2018-01-09 12:52:18 · 92571 阅读 · 572 评论 -
超详细:R语言缺失值及异常值处理
缺失值缺失值是指粗糙数据中由于缺少信息而造成的数据的聚类,分组,删失或截断。它指的是现有数据集中某个或某些属性的值是不完全的。缺失值的处理方法:对于缺失值的处理,从总体上来说分为删除存在缺失值的个案和缺失值插补。异常值指样本中的个别值,其数值明显偏离它(或他们)所属样本的其余观测值,也称异常数据,离群值。目前人们对异常值的判别与剔除主要采用物理判别法和统计判别法两种方法。原创 2018-01-26 18:09:48 · 32163 阅读 · 8 评论 -
r语言kmeans聚类(真实案例完整流程)
K-means算法简单来讲就是对于给定的样本集,按照样本之间的距离大小,将样本集划分为K个簇。让簇内的点尽量紧密的连在一起,而让簇间的距离尽量的大,两个对象之间的距离越近,相似性越高原创 2018-03-21 19:09:24 · 64633 阅读 · 43 评论 -
r语言模糊聚类(真实案例完整流程)
模糊聚类分析是根据客观事物间的特征、亲疏程度、相似性,通过建立模糊相似关系对客观事物进行聚类的分析方法,模糊识别又称为模糊分类。从处理问题的角度来看,模糊识别可以分为有监督的分类和无监督的分类两种类型。在模糊理论中,一个元素与一个集合的关系不再是简单的属于或者不属于关系。而是属于,不属于,部分属于。原创 2018-03-23 10:57:07 · 13939 阅读 · 44 评论 -
python降维总结(超全)
一、数据降维了解1.1、数据降维原理:机器学习领域中所谓的降维就是指采用某种映射方法,将原高维空间中的数据点映射到低维度的空间中。降维的本质是学习一个映射函数 f : x->y,其中x是原始数据点的表达,目前最多使用向量表达形式。 y是数据点映射后的低维向量表达,通常y的维度小于x的维度(当然提高维度也是可以的)。f可能是显式的或隐式的、线性的或非线性的;1.2、不进行数据降维的...原创 2018-09-19 17:41:52 · 20570 阅读 · 5 评论 -
机器学习模型评估及性能评价(超全)
总述:为了评估机器学习算法在某项任务中好坏,需要我们设计方法去度量性能,比如,在分类任务中,我们经常衡量模型的精度(accuracy),即正确分类数据与全部分类数据的比值。与之相对应,我们去测量错误分类数据在全部分类数据比例,称之为错误率(error rate),也常将错误率称为0-1损失期望。机器学习算法是在实际环境中运行的,也就是说,机器学习所面临的数据是未知的。生活告诉我们,实践才能...原创 2019-01-08 18:23:25 · 5957 阅读 · 0 评论 -
r语言熵权法求权重(真实案例完整流程)
可以通过计算熵值来判断一个事件的随机性及无序程度,也可以用熵值来判断某个指标的离散程度,指标的离散程度越大,该指标对综合评价的影响(权重)越大。原创 2017-12-07 20:41:29 · 40607 阅读 · 77 评论