
机器学习
文章平均质量分 59
小强的呼呼呼
机器学习爱好者
展开
-
Logistic回归建模
一、t检验2. 逻辑回归代码#-*- coding: utf-8 -*-import pandas as pdimport numpy as npfilename = 'bankloan.xls'data = pd.read_excel(filename)X = data.iloc[:,:8].as_matrix()y = data.iloc[:,8].as_matri原创 2016-12-19 22:40:51 · 1025 阅读 · 0 评论 -
精确率、召回率、F1 值、ROC、AUC 各自的优缺点
本文主要汇总了知乎的回答[https://www.zhihu.com/question/30643044] ROC曲线的概念:http://blog.youkuaiyun.com/abcjennifer/article/details/7359370 PRC曲线的概念: http://blog.youkuaiyun.com/u012089317/article/details/521565141. 总体介绍ROC:RO原创 2017-10-01 23:44:28 · 3141 阅读 · 0 评论 -
非常好的t-SNE介绍
从SNE到t-SNE再到LargeVis,转自http://bindog.github.io/blog/2016/06/04/from-sne-to-tsne-to-largevis原创 2017-09-29 17:24:05 · 1542 阅读 · 0 评论 -
Sklearn库学习笔记1 Feature_Engineering之预处理篇
一、预处理1. Binarizer 二值化处理from sklearn.preprocessing import Binarizerimport numpy as np'''数据二值化处理:适用场景:泊松分布,文本数据操作特点:返回对于数值特征的阈值判断'''x_train = np.array([[1,2,-1], [2, 3, -2],原创 2017-08-28 16:06:37 · 668 阅读 · 1 评论 -
线性回归中何时中心化和标准化训练数据
注明: 本文主要参考https://stats.stackexchange.com/questions/29781/when-conducting-multiple-regression-when-should-you-center-your-predictor-varia中的回答一般来说,我们再做线性回归时并不需要中心化和标准化数据。大多数情况下数据中的特征会以不同的测量单位展现,无论有没有中心化原创 2017-08-07 14:51:52 · 7373 阅读 · 2 评论 -
梯度爆炸的解决办法:clip gradient
1.梯度爆炸的影响在一个只有一个隐藏节点的网络中,损失函数和权值w偏置b构成error surface,其中有一堵墙,如下所示 损失函数每次迭代都是每次一小步,但是当遇到这堵墙时,在墙上的某点计算梯度,梯度会瞬间增大,指向某处不理想的位置。如果我们使用缩放,可以把误导控制在可接受范围内,如虚线箭头所示2.解决梯度爆炸问题的方法通常会使用一种叫”clip gradients “的方法. 它能原创 2017-07-26 17:27:36 · 32513 阅读 · 6 评论 -
word2vec简要教程
一、 Word2Vec Tutorial1.discrete representation(one-hot)的缺点one-hot vector 不能够表示词之间的相似性,例子如下,motel和hotel是意思相近的两个词,可是两个词的one-hot vector却是正交的。所以我们考虑使用一种维度较低并且有递推关系的向量来表示词,相似的词具有相似的向量。比如语料库有1W个词,如果用one-hot来表原创 2017-07-12 15:46:29 · 886 阅读 · 0 评论 -
Maxout网络学习
Maxout网络学习原文地址:http://blog.youkuaiyun.com/hjimce/article/details/50414467作者:hjimce一、相关理论 本篇博文主要讲解2013年,ICML上的一篇文献:《Maxout Networks》,这个算法我目前也很少用到,个人感觉最主要的原因应该是这个算法参数个数会成k倍增加(k是maxout的一个参数),不过没关系,对于我们来说知识积累转载 2017-06-09 14:25:06 · 445 阅读 · 0 评论 -
聚类算法
1.聚类任务 聚类试图将数据集中的样本划分为若干个通常是不相交的子集,每个子集称为一个”簇“,通过这样的划分,每个簇可能对应于一些潜在的概念,这些概念对聚类算法来说是事先未知,聚类过程仅能自动形成簇结构,簇所对应的概念语义需要由使用者来把握命名。2.性能度量聚类性能度量分为两大类,一类是将聚类结果与某个”参考模型“进行比较,称为”外部指标“;另一类是直接考察聚类结果而不利用任原创 2016-12-21 09:32:46 · 621 阅读 · 0 评论 -
决策树
#-*- coding: utf-8 -*-import pandas as pdimport numpy as npfilename = 'bankloan.xls'data = pd.read_excel(filename)X = data.iloc[:,:8].as_matrix()y = data.iloc[:,8].as_matrix()from sklearn.li原创 2016-12-19 23:30:35 · 734 阅读 · 0 评论 -
Quora比赛代码学习笔记
1.sns调色板使用pal = sns.color_palette()2.打印文件大小print('# File sizes')for f in os.listdir('../input'): if 'zip' not in f: #ljust() 返回一个原字符串左对齐,并使用空格填充至指定长度的新字符串。如果指定的长度小于原字符串的长度则返回原字符串。原创 2017-09-28 23:01:40 · 551 阅读 · 0 评论