- 博客(122)
- 资源 (4)
- 收藏
- 关注
原创 概念
ground truth参考:https://www.zhihu.com/question/22464082说白了,就是标准答案,真实值,设定的一个正确的基准。有监督学习中,输入的训练数据会有相应的ground truth(真实值,标签),在计算loss的时候,需要将预测值和这个真实值进行对比从而计算距离。Ground truth当然还可以用来做reinforcement learning,就是在...
2018-02-26 20:53:49
442
转载 阿里面试题总结
参考:http://blog.youkuaiyun.com/chenchaofuck1/article/details/51620442
2017-04-25 21:43:45
995
转载 Batch Normalization 学习笔记
参考:http://blog.youkuaiyun.com/hjimce/article/details/50866313Batch Normalization 学习笔记原文地址:http://blog.youkuaiyun.com/hjimce/article/details/50866313作者:hjimce一、背景意义本篇博文主要讲解2015年深度学习领域,非常值得学习的一篇文献:《
2017-04-10 23:18:40
663
转载 解读Batch Normalization
参考:http://blog.youkuaiyun.com/shuzfan/article/details/50723877本次所讲的内容为Batch Normalization,简称BN,来源于《Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift》,是一篇很好的p
2017-04-10 22:57:35
538
转载 SciPy教程 - 稀疏矩阵库scipy.sparse
参考:http://blog.youkuaiyun.com/pipisorry/article/details/41762945稀疏矩阵在Python科学计算中的实际意义对于那些零元素数目远远多于非零元素数目,并且非零元素的分布没有规律的矩阵称为稀疏矩阵(sparse)。由于稀疏矩阵中非零元素较少,零元素较多,因此可以采用只存储非零元素的方法来进行压缩存储。对于一个用二维数组存储的
2017-04-09 16:10:04
6063
转载 如何通俗理解beta分布?
参考:http://blog.youkuaiyun.com/a358463121/article/details/52562940beta分布介绍相信大家学过统计学的都对 正态分布 二项分布 均匀分布 等等很熟悉了,但是却鲜少有人去介绍beta分布的。用一句话来说,beta分布可以看作一个概率的概率分布,当你不知道一个东西的具体概率是多少时,它可以给出了所有概率出现的可能性大小
2017-04-08 20:04:07
879
转载 stacking简介
参考:http://www.cnblogs.com/zhizhan/p/5051881.htmlstacked 产生方法是一种截然不同的组合多个模型的方法,它讲的是组合学习器的概念,但是使用的相对于bagging和boosting较少,它不像bagging和boosting,而是组合不同的模型,具体的过程如下:1.划分训练数据集为两个不相交的集合。2. 在第一个集合上训练多个学习器。
2017-04-07 00:27:06
1817
转载 ExtraTrees原理
原文:http://blog.youkuaiyun.com/zhaocj/article/details/51648966ET或Extra-Trees(Extremely randomized trees,极端随机树)是由PierreGeurts等人于2006年提出。该算法与随机森林算法十分相似,都是由许多决策树构成。但该算法与随机森林有两点主要的区别:1、随机森林应用的是Bagging模型,而ET是
2017-04-06 23:56:09
30999
原创 给用户推荐商品
给用户推荐商品地址:http://blog.youkuaiyun.com/qq_34264472/article/details/53808876https://www.kaggle.com/c/santander-product-recommendation/data描述:根据用户15个月商品购买记录(2015年1月28日到2016年5月用户购买商品记录),预测下个月(201
2017-04-06 22:31:38
2382
转载 连续特征的离散化:在什么情况下将连续的特征离散化之后可以获得更好的效果?
参考:https://www.zhihu.com/question/31989952/answer/54184582在工业界,很少直接将连续值作为逻辑回归模型的特征输入,而是将连续特征离散化为一系列0、1特征交给逻辑回归模型,这样做的优势有以下几点:0. 离散特征的增加和减少都很容易,易于模型的快速迭代;1. 稀疏向量内积乘法运算速度快,计算结果方便存储,容易扩展;2. 离散化
2017-04-05 23:22:29
3632
原创 偏度(skewness)和峰度(kurtosis)
偏度偏度(skewness),是统计数据分布偏斜方向和程度的度量,是统计数据分布非对称程度的数字特征。定义上偏度是样本的三阶标准化矩。偏度定义中包括正态分布(偏度=0),右偏分布(也叫正偏分布,其偏度>0),左偏分布(也叫负偏分布,其偏度峰度峰度(peakedness;kurtosis)又称峰态系数。表征概率密度分布曲线在平均值处峰值高低的特征数。直观看来,
2017-04-05 21:58:34
180624
16
原创 Word2vec参数
Word2vec将分好词的训练语料进行训练,假定我语料名称为test.txt且在word2vec目录中。输入命令:./word2vec -train text8 -output vectors.bin -cbow 0 -size 48 -window 5 -negative 0 -hs 1 -sample 1e-4 -threads 20 -binary 1 -iter 100
2017-04-05 00:03:12
1272
原创 RF、gbdt、xgboost参数
RandomForestrf_params = { 'n_jobs': 16, 'n_estimators': 100, 'max_features': 0.2, 'max_depth': 12, 'min_samples_leaf': 2,}gbdtxgboostxgb_params = { 'seed': 0,
2017-04-04 23:52:53
524
转载 XGBOOST参数调优
参考:http://www.cnblogs.com/zhangbojiangfeng/p/6428988.html1. 简介 如果你的预测模型表现得有些不尽如人意,那就用XGBoost吧。XGBoost算法现在已经成为很多数据工程师的重要武器。它是一种十分精致的算法,可以处理各种不规则的数据。 构造一个使用XGBoost的模型十分简单。但是,提高这个模型的表现就
2017-04-04 18:36:02
1624
原创 归并排序
C#include #include void Merge(int sourceArr[],int tempArr[], int startIndex, int midIndex, int endIndex){ int i = startIndex, j=midIndex+1, k = startIndex; while(i!=midIndex+1 && j!=end
2017-04-03 00:20:17
475
原创 快速排序
C++#include using namespace std; void Qsort(int a[], int low, int high){ if(low >= high) { return; } int first = low; int last = high; int key = a[first];/*用字
2017-04-03 00:11:43
452
转载 设计模式
单例模式#参考:http://ghostfromheaven.iteye.com/blog/1562618#使用装饰器(decorator), #这是一种更pythonic,更elegant的方法, #单例类本身根本不知道自己是单例的,因为他本身(自己的代码)并不是单例的 def singleton(cls, *args, **kw): inst
2017-04-02 10:07:39
420
原创 sbt
1. 安装sbta. 下载http://www.scala-sbt.org/download.htmlb. 解压到/opt/sbtc. 创建/opt/sbt/sbt文件,内容为:BT_OPTS="-Xms512M -Xmx1536M -Xss1M -XX:+CMSClassUnloadingEnabled -XX:MaxPermSize=256M"java $SBT_OPTS
2017-04-01 21:32:54
477
转载 数据倾斜是多么痛?spark作业调优秘籍
参考:http://www.tuicool.com/articles/qUBJbuV有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的性能。数据倾斜是多么痛?!!!如果数据倾斜没有解决,完全没有可能进行性能调优,其他所有的调优手段都
2017-03-31 22:40:39
489
转载 spark-shell报错:java.net.UnknownHostException
参考:https://my.oschina.net/heguangdong/blog/13678启动spark-shell报错:java.net.UnknownHostException: 主机名: 主机名 unknown error修改/etc/hosts文件127.0.0.1 主机名 localhost.localdomain localhost或是再添加一
2017-03-30 20:50:44
2849
转载 LDA-math-MCMC 和 Gibbs Sampling
参考:https://cos.name/2013/01/lda-math-mcmc-and-gibbs-sampling/
2017-03-28 21:53:25
581
原创 Word2vec简单整理
参考:https://zhuanlan.zhihu.com/p/22477976http://yobobobo001.github.io/2016/05/26/%E6%88%91%E6%89%80%E7%90%86%E8%A7%A3%E7%9A%84word2vec/http://x-algo.cn/index.php/2016/03/12/281/#ihttps://www.zh
2017-03-28 00:37:50
14022
1
原创 机器学习中常用算法总结
参考:http://www.shuju.net/article/MDAwMDAyM4DM0.html逻辑回归优点:计算代价不高,易于理解和实现。 缺点:容易欠拟合,分类精度可能不高。关键词:Sigmoid函数、Softmax解决多分类适用数据类型:数值型和标称型数据。其它:逻辑回归函数虽然是一个非线性的函数,但其实其去除Sigmoid映射函数之后,其他步骤都和线
2017-03-26 23:28:40
3732
转载 频繁项集挖掘算法Apriori FPGrowth
参考:http://blog.sina.com.cn/s/blog_5357c0af0101jq6z.htmlhttp://blog.youkuaiyun.com/huagong_adu/article/details/17739247Apriori算法和FPTree算法都是数据挖掘中的关联规则挖掘算法,处理的都是最简单的单层单维布尔关联规则。Apriori算法Ap
2017-03-26 23:19:14
11989
转载 FM算法详解
参考:http://blog.youkuaiyun.com/bitcarmanlee/article/details/52143909http://blog.youkuaiyun.com/dream_catcher_10/article/details/50844976简介1.FM(factorization machine)模型是一种基于矩阵分解的机器学习模型,对于One-Hot编码引起的稀疏数据具有很
2017-03-26 14:05:53
5572
原创 神经网络概念理解
激励函数有哪些?各有什么特点?为什么引入非线性激励函数?如果不用非线性激励函数(其实相当于激励函数是f(x)=x),每一层输出都是上层输入的线性函数,无论该神经网络多少层,输出都是输入的线性组合,与没有隐藏层效果一样,即为最原始的感知机了。为什么引入ReLU?1. 对于深层网络,sigmoid函数反向传播时,很容易出现梯度消失,从而无法完成深层网络的训练。
2017-03-26 00:21:23
2054
转载 理解长短期记忆网络(LSTM NetWorks)
参考:http://www.youkuaiyun.com/article/2015-11-25/2826323递归神经网络人类并不是每时每刻都从头开始思考。正如你阅读这篇文章的时候,你是在理解前面词语的基础上来理解每个词。你不会丢弃所有已知的信息而从头开始思考。你的思想具有持续性。传统的神经网络不能做到这点,而且这似乎也是它的主要缺陷。比如,你想对电影中每个点发生的事件类型进行分类
2017-03-25 21:03:03
797
转载 卷积神经网络
参考:http://geek.youkuaiyun.com/news/detail/127365接下来介绍一种非常重要的神经网络——卷积神经网络。这种神经网络在计算机视觉领域取得了重大的成功,而且在自然语言处理等其它领域也有很好的应用。深度学习受到大家的关注很大一个原因就是Alex等人实现的AlexNet(一种深度卷积神经网络)在LSVRC-2010 ImageNet这个比赛中取得了非常好的成绩。
2017-03-25 20:54:39
866
转载 受限波尔兹曼机
参考:http://blog.youkuaiyun.com/u012333003/article/details/36416027一、简述 受限玻尔兹曼机(RBM)是一类具有两层结构、对称链接无自反馈 的随机神经网络模型, 层与层之间是全连接,层内无链接 ,也就是说是一个二部图。RBM是一种有效的特征提取方法,常用于初始化前馈神经网络,可明显提高泛化能力。而由多个RBM结构堆
2017-03-25 20:44:31
803
转载 SVD SVD++
参考:http://www.cnblogs.com/Xnice/p/4522671.htmlhttp://blog.youkuaiyun.com/dark_scope/article/details/17228643http://blog.youkuaiyun.com/qq_20599123/article/details/51509335用户-电影评分矩阵形式矩阵分解
2017-03-25 19:58:49
2564
转载 希腊字母
1 Α α alpha a:lf 阿尔法2 Β β beta bet 贝塔3 Γ γ gamma ga:m 伽马4 Δ δ delta delt 德尔塔5 Ε
2017-03-25 10:21:40
1321
转载 特征选择
参考:http://www.tuicool.com/articles/ieUvaq 为什么要进行特征选择?1. 减少特征数量、降维,使模型泛化能力更强,减少过拟合,还能减少计算开销2. 增强对特征和特征值之间的理解有哪些特征选择方法?1. 理解业务2. 去除方差较小的特征3. 正则化。1正则化能够生成稀疏的模型。L2正则化的表现更加稳定,由于有用的特征往往对应系数非零。
2017-03-23 23:16:51
856
转载 xgboost相比传统gbdt有何不同?xgboost为什么快?xgboost如何支持并行?
链接:https://www.zhihu.com/question/41354392/answer/98658997传统GBDT以CART作为基分类器,xgboost还支持线性分类器,这个时候xgboost相当于带L1和L2正则化项的逻辑斯蒂回归(分类问题)或者线性回归(回归问题)。传统GBDT在优化时只用到一阶导数信息,xgboost则对代价函数进行了二阶泰勒展开,同时用到了一阶
2017-03-23 22:08:34
10439
原创 数据预处理
参考:http://mp.weixin.qq.com/s?__biz=MjM5MTQzNzU2NA==&mid=2651647587&idx=2&sn=d0d3a69ce141f4015d6e0320048fbe63&chksm=bd4dc9f08a3a40e6eb2056107db353b4b657077ef8d3f999c757a70c97802a2de35241298abe&mpshar
2017-03-23 20:59:26
1007
转载 推荐系统笔记四、基于内容的推荐系统
参考:http://blog.youkuaiyun.com/wangjian1204/article/details/50498287一、概述:基于内容的推荐系统(CBRSs)从item和用户的内容描述中提取出item的内容特征和用户偏好,根据用户对item的评价历史和item之间的语义(内容)相似度进行推荐。 基于内容推荐系统的高层次结构如图
2017-03-22 23:52:50
639
转载 推荐系统笔记三、基于近邻的推荐系统(进阶篇)
参考:http://blog.youkuaiyun.com/wangjian1204/article/details/50490108一、概述:基于近邻的推荐算法在推荐系统中占有重要的地位,是学术界的一个重点研究方向,在产业界也得到了广泛的应用。基于近邻的推荐算法大致可以分为user-based和item-based两类,关于近邻推荐算法的基础性介绍,请参见博文: “推荐系统笔记一
2017-03-22 23:51:57
781
转载 推荐系统笔记二、矩阵分解协同过滤
参考:http://blog.youkuaiyun.com/wangjian1204/article/details/50465109一、概述:矩阵分解模型是把用户偏好和item属性投影到同一个隐因子空间(latent factor space),以用户偏好和item属性的匹配程度来预测评分。通常推荐系统可以用于模型训练的信息主要有用户的显式反馈、隐式反馈和时间信息等。显式反馈(exp
2017-03-22 23:50:11
743
转载 推荐系统笔记一、基于近邻的推荐系统(基础篇)
参考:http://blog.youkuaiyun.com/wangjian1204/article/details/50451249Recommender Systems Handbook 第一版(2008年)是推荐系统方向入门的经典。7年后,第二版(2015年)终于诞生了,加入了这几年推荐系统领域的最新技术,又是state-of-the-art了吧,开始读书加笔记整理。。。一、
2017-03-22 23:48:35
696
原创 PCA和SVD区别和联系
参考:http://blog.youkuaiyun.com/wangjian1204/article/details/50642732http://www.cnblogs.com/lzllovesyl/p/5243370.htmlPCA图1.寻找主成分方向对于正交属性空间的样本点,如何用一个超平
2017-03-22 22:29:26
2360
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人