
Data Analysis
文章平均质量分 93
张博208
知识搬运工
展开
-
基于密度峰值的聚类(DPCA)
1、背景介绍 密度峰值算法(Clustering by fast search and find of density peaks)由Alex Rodriguez和Alessandro Laio于2014年提出,并将论文发表在Science上。Science上的这篇文章《Clustering by fast search and find of density peaks》主要讲的是一种基于密度的聚类方法,基于密度的聚类方法的主要思想是寻找被低密度区域分离的高密度区域。 密度峰值算法(DPCA)基于这原创 2021-07-06 11:54:17 · 5399 阅读 · 6 评论 -
What’s the Difference Between RMSE and RMSLE?
https://medium.com/analytics-vidhya/root-mean-square-log-error-rmse-vs-rmlse-935c6cc1802aIntroductionThere has been a lot of evaluation metrics when it comes to Regression problem and Root Mean Square Error or RMSE, in short, has been among the “got.转载 2021-05-21 13:49:39 · 806 阅读 · 0 评论 -
变分推断以及在概率图模型中的应用
https://qianyang-hfut.blog.youkuaiyun.com/article/details/86644192https://blog.youkuaiyun.com/qy20115549/article/details/93074519链接:https://www.zhihu.com/question/41765860/answer/331070683来源:知乎最干的干货:首先,我们的原始目标是,需要根据已有数据推断需要的分布p;当p不容易表达,不能直接求解时,可以尝试用变分推断..转载 2020-08-26 10:52:03 · 988 阅读 · 0 评论 -
如何通俗地讲解 viterbi 算法?
https://www.zhihu.com/question/20136144原创 2020-08-13 10:52:45 · 139 阅读 · 0 评论 -
点互信息(PMI)预测utterance关键词
PMI(Pointwise Mutual Information)机器学习相关文献中,可以看到使用PMI衡量两个变量之间的相关性,比如两个词,两个句子。原理公式为:在概率论中,如果x和y无关,p(x,y)=p(x)p(y);如果x和y越相关,p(x,y)和p(x)p(y)的比就越大。从后两个条件概率可能更好解释,在y出现的条件下x出现的概率除以单看x出现的概率,这个值越大表示x和y越相关。log取自信息论中对概率的量化转换(对数结果为负,一般要再乘以-1,当然取绝对值也是一样的)。.转载 2020-08-12 17:41:25 · 309 阅读 · 0 评论 -
隐马尔可夫模型学习笔记
引用:https://blog.youkuaiyun.com/qq_37334135/article/details/86265648https://blog.youkuaiyun.com/qq_37334135/article/details/86302735https://blog.youkuaiyun.com/qq_37334135/article/details/86314856原创 2020-08-11 10:46:00 · 142 阅读 · 0 评论 -
概率估值的光滑
https://static.mysmth.net/nForum/att/AI/48558/263https://cloud.tencent.com/developer/article/1185143原创 2020-08-10 09:37:15 · 186 阅读 · 0 评论 -
克里金插值 Kriging
https://blog.youkuaiyun.com/sinat_23619409/article/details/79974990转载 2020-08-01 13:51:33 · 445 阅读 · 0 评论 -
费雪信息 (Fisher information)
https://www.pianshen.com/article/7760431989/转载 2020-06-26 18:42:01 · 1099 阅读 · 0 评论 -
DTW(Dynamic Time Warping) 动态时间规整
https://www.jianshu.com/p/4c905853711c转载 2020-05-22 14:46:52 · 232 阅读 · 0 评论 -
金融风控稳定性指标 PSI & CSI
https://zhuanlan.zhihu.com/p/94619990原创 2020-05-18 14:13:41 · 1912 阅读 · 0 评论 -
一篇理解Message passing算法 | 贝叶斯推断
https://blog.youkuaiyun.com/qq_41603411/article/details/105209622转载 2020-04-16 11:56:17 · 1527 阅读 · 0 评论 -
多模态的几种融合方法
目前,多模态数据融合主要有三种融合方式:前端融合(early-fusion)或数据水平融合(data-level fusion)、后端融合(late-fusion)或决策水平融合(decision-level fusion)和中间融合(intermediate-fusion)。前端融合将多个独立的数据集融合成一个单一的特征向量,然后输入到机器学习分类器中。由于多模态数据的前端融合往往无法充分利...转载 2020-04-13 10:07:00 · 6042 阅读 · 0 评论 -
pandas 的apply返回多列,并赋值
转载他人的,本来自己想写,算了import pandas as pddf_tmp = pd.DataFrame([ {"a":"data1", "cnt":100},{"a":"data2", "cnt":200},])df_tmpa cntdata1 100data2 200方法一:使用apply 的参数result_type 来处理def formatrow(ro...转载 2020-04-10 09:55:40 · 18725 阅读 · 5 评论 -
特征选择与特征学习
特征选择与特征学习在机器学习的具体实践任务中,选择一组具有代表性的特征用于构建模型是非常重要的问题。特征选择通常选择与类别相关性强、且特征彼此间相关性弱的特征子集,具体特征选择算法通过定义合适的子集评价函数来体现。在现实世界中,数据通常是复杂冗余,富有变化的,有必要从原始数据发现有用的特性。人工选取出来的特征依赖人力和专业知识,不利于推广。于是我们需要通过机器来学习和抽取特征,促进特征转载 2017-06-08 10:00:58 · 3897 阅读 · 0 评论 -
随机采样和随机模拟:吉布斯采样Gibbs Sampling
为什么要用吉布斯采样什么是sampling? sampling就是以一定的概率分布,看发生什么事件。举一个例子。甲只能E:吃饭、学习、打球,时间T:上午、下午、晚上,天气W:晴朗、刮风、下雨。现在要一个sample,这个sample可以是:打球+下午+晴朗。吉布斯采样的通俗解释?问题是我们不知道p(E,T,W),或者说,不知道三件事的联合分布joint distribution。当然,如果知道的话...转载 2018-03-21 09:33:05 · 1169 阅读 · 0 评论 -
Fisher判别分析
Fisher判别分析首先我们得搞清楚什么是Fisher算法?选取任何一本模式识别与智能计算的书都有这方面的讲解。首先得知道Fisher线性判别函数,在处理数据的时候,我们经常遇到高维数据,这个时候往往就会遇到“维数灾难”的问题,即在低维空间可行,那么在高维空间往往却不可行,那么此时我们就可以降数据降维,将高维空间降到低维空间。可以考虑把维空间的样本投影到一条直线上,形成一维空间,即把数据压缩到一维...转载 2018-02-26 09:21:57 · 2596 阅读 · 0 评论 -
分位数回归模型学习笔记
我读硕士老师给我的第一篇论文就是一个分位数回归的文章,当时觉得这个模型很简单,我很快就用R的示例文件写了一个例子,但是,在后面的研究中,我越来越觉得,这个模型没有我想的那么简单,而且有着非常丰富的内涵需要来挖掘,就找了好几本书来看,结果真的是越看越懵,越看越懵,但是懵了一段时间之后,又重新感觉自己明白点了,所以赶紧把这一点进行一个总结,省的再放一段时间,连仅有的这一点懂的东西都没有了。首先随机变量...转载 2018-03-09 11:10:54 · 53685 阅读 · 6 评论 -
Huber Loss function
Huber loss是为了增强平方误差损失函数(squared loss function)对噪声(或叫离群点,outliers)的鲁棒性提出的。DefinitionLδ(a)={12a2,δ⋅(|a|−12δ),for |a|≤δ,otherwise.Lδ(a)={12a2,for |a|≤δ,δ⋅(|a|−12δ),otherwise.参数aa通常表示residuals,也即(y−y^)(y−...转载 2018-03-09 10:38:40 · 4947 阅读 · 0 评论 -
GARCH模型
GARCH模型的定义ARCH模型的实质是使用残差平方序列的q阶移动平移拟合当期异方差函数值,由于移动平均模型具有自相关系数q阶截尾性,所以ARCH模型实际上只适用于异方差函数短期自相关系数。 但是在实践中,有些残差序列的异方差函数是具有长期自关性,这时使用ARCH模型拟合异方差函数,将会产生很高的移动平均阶数,增加参数估计的难度并最终影响ARCH模型的拟合精度。 为了修正个问题,提转载 2018-02-05 13:56:04 · 42792 阅读 · 3 评论 -
【pandas】[5] 数据行列转置,数据透视(stack,unstack,pviot,pviot_table)
作者:lianghc在逛优快云论坛时遇到这样一个问题:下列代码中srcdf和desdf都是Pandas的DataFrame对象,需要将srcdf转换为desdf,也就是根据列中的值拓展新的列,关系数据库报表中常见的需求,请问用DataFrame要如何实现?[python] view plain copy print(sr转载 2017-07-10 11:10:21 · 2599 阅读 · 0 评论 -
多维标度法(MDS)的Python实现
多维标度法(multidimensional scaling,MDS)是一种在低维空间展示“距离”数据结构的多元数据分析技术,是一种将多维空间的研究对象( 样本 或 变量 ) 简化到低维空间进行定位、分析和归类, 同时又保留对象间原始关系的数据分析方法。多维标度法与主成分分析(Principle Component Analysis,PCA)、线性判别分析(Linear Discrimin转载 2017-07-04 16:55:08 · 3728 阅读 · 0 评论 -
[Scikit-Learn] - 数据预处理 - 归一化/标准化/正则化
reference: http://www.cnblogs.com/chaosimple/p/4153167.html 一、标准化(Z-Score),或者去除均值和方差缩放公式为:(X-mean)/std 计算时对每个属性/每列分别进行。将数据按期属性(按列进行)减去其均值,并处以其方差。得到的结果是,对于每个属性/每列来说所有数据都聚集在0附近,方差为1。转载 2017-06-24 14:35:10 · 876 阅读 · 0 评论 -
scikit-learn文档学习 预处理
4.3. 数据预处理``sklearn.preprocessing``包为用户提供了多个工具函数和类,用于将原始特征转换成更适于项目后期学习的特征表示。4.3.1. 标准化、去均值、方差缩放(variance scaling)数据集的** 标准化 对于在scikit中的大部分机器学习算法来说都是一种 常规要求 ** 。如果单个特征没有或多或少地接近于标准正态分布:**原创 2017-06-24 11:46:13 · 1224 阅读 · 0 评论 -
因子分析(Factor Analysis) 最大似然法
1 问题 之前我们考虑的训练数据中样例的个数m都远远大于其特征个数n,这样不管是进行回归、聚类等都没有太大的问题。然而当训练样例个数m太小,甚至m<<n的时候,使用梯度下降法进行回归时,如果初值不同,得到的参数结果会有很大偏差(因为方程数小于参数个数)。另外,如果使用多元高斯分布(Multivariate Gaussian distribution)对数据进行拟合时,也会有问题...转载 2018-07-02 10:47:42 · 9117 阅读 · 0 评论 -
Bootstrap方法详解——技术与实例
一、Introduction如果说到Bootstrap你会想到什么?是Twitter推出的那个用于前端开发的开源工具包吗?Unfortunately,本文要讨论的并非是Bootstrap工具包,而是统计学习中一种重采样(Resampling)技术。这种看似简单的方法,对后来的很多技术都产生了深远的影响。机器学习中的Bagging,AdaBoost等方法其实都蕴含了Bootstrap的思想。下面引用...转载 2018-07-02 16:05:41 · 44540 阅读 · 2 评论 -
随机过程--Metropolis-Hastings算法
随机过程–Metropolis-Hastings算法随机过程Metropolis-Hastings算法蒙特卡罗方法生成随机数求解概率和期望问题栗子马尔可夫链Metropolis算法Metropolis-Hastings算法蒙特卡罗方法 蒙特卡罗(Monte Carlo)方法又称随机抽样或统计试验方法,简单地理解就是利用随机数去解决许多计算问题,通过实验去求解一些数学问题。通常是通过一些随机模拟实...转载 2018-07-02 16:48:38 · 1909 阅读 · 0 评论 -
R语言缺失值处理
数据缺失有多种原因,而大部分统计方法都假定处理的是完整矩阵、向量和数据框。缺失数据的分类:完全随机缺失:若某变量的缺失数据与其他任何观测或未观测变量都不相关,则数据为完全随机缺失(MCAR)。随机缺失:若某变量上的缺失数据与其他观测变量相关,与它自己的未观测值不相关,则数据为随机缺失(MAR)。非随机缺失:若缺失数据不属于MCAR或MAR,则数据为非随机缺失(NMA转载 2017-05-11 16:25:11 · 41759 阅读 · 2 评论 -
几种Boost算法的比较(Discrete AdaBoost, Real AdaBoost, LogitBoost, Gentle Adaboost)
关于boost算法 boost算法是基于PAC学习理论(probably approximately correct)而建立的一套集成学习算法(ensemble learning)。其根本思想在于通过多个简单的弱分类器,构建出准确率很高的强分类器,PAC学习理论证实了这一方法的可行性。下面关于几种Boost算法的比较,是基于文章《Additive Logistic Regression a ...转载 2018-09-23 21:06:01 · 745 阅读 · 0 评论 -
拉普拉斯矩阵(Laplace Matrix)与瑞利熵(Rayleigh quotient)
前言前面分析了非负矩阵分解(NMF)的应用,总觉得NMF与谱聚类(Spectral clustering)的思想很相似,打算分析对比一下。谱聚类更像是基于图(Graph)的思想,其中涉及到一个重要概念就是拉普拉斯矩阵(Laplace matrix),想着先梳理一下这个矩阵: 1)拉普拉斯矩阵基本定义 2)拉普拉斯矩阵意义及性质 3)瑞利熵(Rayleigh quotient...转载 2018-08-31 10:58:04 · 3182 阅读 · 0 评论 -
概率论——Wasserstein距离
https://blog.youkuaiyun.com/victoriaw/article/details/56674777转载 2018-08-28 11:28:11 · 1951 阅读 · 0 评论 -
邻接矩阵与关联矩阵
https://blog.youkuaiyun.com/Hanging_Gardens/article/details/55670356转载 2018-08-30 18:56:12 · 16341 阅读 · 1 评论 -
等级资料Ridit分析及正确使用
https://wenku.baidu.com/view/68d5b71302768e9950e7383c.html转载 2018-07-13 18:22:08 · 3098 阅读 · 0 评论 -
数据挖掘模型中的IV和WOE详解
1.IV的用途IV的全称是Information Value,中文意思是信息价值,或者信息量。我们在用逻辑回归、决策树等模型方法构建分类模型时,经常需要对自变量进行筛选。比如我们有200个候选自变量,通常情况下,不会直接把200个变量直接放到模型中去进行拟合训练,而是会用一些方法,从这200个自变量中挑选一些出来,放进模型,形成入模变量列表。那么我们怎么去挑选入模变量呢?挑选入模变量过程是个比较复...转载 2018-07-13 16:11:09 · 603 阅读 · 0 评论 -
使用本福德定律甄别数据造假(Benford’s Law)
数据造假的甄别在数据分析领域是一个热门的话题,也是对数据分析师的一项挑战。分析数据造假的方法有很多种。我们在前面的系列文章中曾经介绍过两种检验作弊流量的方法。一种是根据历史经验及分布情况的多维度交叉检验,另一种是使用随机森林模型根据已知作弊流量的特征对新流量进行分类及预测。本篇文章介绍一种神奇的数据检验方法,本福德定律(Benford’s Law)。本福德定律是一种用途广泛的数据检验方法,在安然公...转载 2018-07-13 09:53:27 · 8262 阅读 · 1 评论 -
Jaccard系数与Jaccard距离
Jaccard(杰卡德)系数主要用于计算样本间的相似度。Jaccard系数的计算方式为:样本交集个数和样本并集个数的比值,用J(A,B)表示。公式为: jaccard系数相反的即为jaccard距离,用两个集合中不同元素所占元素的比例来衡量两个样本之间的相似度,公式为: Jaccard系数主要的应用的场景有 1.过滤相似度很高的新闻,或者网页去重 2.考试防作弊系统 3.论文查重系统 举个栗子...转载 2018-07-16 15:17:55 · 4135 阅读 · 0 评论 -
Simple matching coefficient
From Wikipedia, the free encyclopediaJump to navigationJump to searchThe simple matching coefficient (SMC) or Rand similarity coefficient is a statistic used for comparing the similarity and diversity...转载 2018-07-16 15:16:51 · 1494 阅读 · 0 评论 -
特征工程
[-]背景综述特征使用方案特征获取方案特征与标注数据清洗样本采样与样本过滤特征分类特征处理与分析特征归一化离散化缺省值处理特征降维特征选择特征选择-产生过程和生成特征子集方法特征选择有效性分析特征监控参考转 机器学习中的数据清洗与特征处理综述摘要本文转自美团技术团队(见转载链接),非转载 2017-06-08 10:02:31 · 394 阅读 · 0 评论 -
特征工程以及特征选择的工程方法
关于特征工程(Feature Engineering),已经是很古老很常见的话题了,坊间常说:“数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已”。由此可见,特征工程在机器学习中占有相当重要的地位。在实际应用当中,可以说特征工程是机器学习成功的关键。纵观Kaggle、KDD等国内外大大小小的比赛,每个竞赛的冠军其实并没有用到很高深的算法,大多数都是在特征工程这个环节做出了出色的工作转载 2017-06-08 10:04:10 · 3417 阅读 · 0 评论 -
拉普拉斯平滑处理 Laplace Smoothing
背景:为什么要做平滑处理? 零概率问题,就是在计算实例的概率时,如果某个量x,在观察样本库(训练集)中没有出现过,会导致整个实例的概率结果是0。在文本分类的问题中,当一个词语没有在训练样本中出现,该词语调概率为0,使用连乘计算文本出现概率时也为0。这是不合理的,不能因为一个事件没有观察到就武断的认为该事件的概率是0。拉普拉斯的理论支撑 为了解决零概率的问题,法国数学家拉转载 2017-05-06 11:02:17 · 13644 阅读 · 0 评论