
机器学习
文章平均质量分 59
fuqiuai
Github: https://github.com/fuqiuai
展开
-
sklearn学习总结(超全面)
sklearn的官网链接http://scikit-learn.org/stable/index.html#目录1. 分类、回归2. 降维3. 模型评估与选择4. 数据预处理 大类 小类 适用问题 实现 说明 分类、回归 1.1 广义线性模型 1.1.1 普通最小二乘法 回归 sk...原创 2018-03-09 12:38:56 · 48275 阅读 · 28 评论 -
论文《胶囊之间的动态路由》 (基于Hinton的胶囊网络)
Hinton在论文《Dynamic Routing Between Capsules》中提出了CapsNet,论文获取地址为:https://arxiv.org/abs/1710.09829论文结合此篇文章阅读:先读懂CapsNet架构然后用TensorFlow实现:全面解析Hinton提出的Capsule知乎上有两篇文章对论文解析的很好: 知乎上云梦居客关于此篇论文的回答:https:...原创 2018-04-10 22:09:07 · 6616 阅读 · 1 评论 -
盘点ML/DL领域世界和国内的顶级大牛(不定期更新。。。)
deep learning三大巨头Geoff Hinton多伦多大学计算机系教授,深度学习之父,深度学习开山鼻祖,BP算法创始人,目前加入Google搞Google BrainYann Lecun(/le ken/) 加入Facebook任人工智能研究室主任,Hinton的博士后,创立CNNYoshua Bengio (/ben jiu/) 在蒙特利尔大学潜心学...原创 2018-04-11 16:04:09 · 8828 阅读 · 0 评论 -
反向传播算法详解
简介BP算法,称“误差逆传播算法”,亦称“反向传播算法”,是迄今为止用得最多的多层神经网络学习算法。用BP算法训练的多层前馈神经网络称为“BP网络”。算法流程BP算法采取基于梯度下降的策略,以目标的负梯度方向对参数进行调整,其目标是最小化训练误差。对每个训练样例,算法执行以下操作:先将输入示例提供给输入层神经元,然后逐层将信号前递,直至输出层产生结果; 然后计算输出层的误差...原创 2018-04-18 14:40:20 · 6874 阅读 · 0 评论 -
论文《矩阵胶囊与EM路由》 (基于Hinton的胶囊网络)
本文介绍了Hinton的第二篇胶囊网络论文《Matrix capsules with EM Routing》,论文获取地址为:https://openreview.net/pdf?id=HJWLfGWRb参考资料: 关于矩阵胶囊与EM路由的理解(基于Hinton的胶囊网络) 三味Capsule:矩阵Capsule与EM路由 如何看待Capsule的第二篇论文Matrix Capsules...原创 2018-04-19 13:42:21 · 4569 阅读 · 0 评论 -
多标签分类(multilabel classification )
这几天看了几篇相关的文章, 写篇文章总结一下,就像个小综述一样, 文章会很乱 1、multilabel classification的用途 多标签分类问题很常见, 比如一部电影可以同时被分为动作片和犯罪片,...转载 2018-05-17 10:25:48 · 18933 阅读 · 3 评论 -
RNN\LSTM\GRU与双向RNN学习笔记
https://blog.youkuaiyun.com/softee/article/details/54292102原创 2018-06-08 15:31:41 · 1311 阅读 · 0 评论 -
softmax函数
softmax函数softmax用于多分类过程中,它将多个神经元的输出,映射到(0,1)区间内,可以看成概率来理解,从而来进行多分类!假设我们有一个数组V,Vi表示V中的第i个元素,那么这个元素的softmax值就是 更形象的如下图表示: softmax直白来说就是将原来输出是3,1,-3通过softmax函数一作用,就映射成为(0,1)的值,而这些值的累和为1(满足概率的性质...原创 2018-06-08 17:14:45 · 1020 阅读 · 0 评论 -
word2vec笔记
word2vec 是 Google 于 2013年开源的一个用于获取词向量的工具包,作者是 Tomas Mikolov,不过现在他已经从 Google Brain 跳槽到了 Facebook Research,后来还参与了 fasttext 项目的研究。下面是我读博客 word2vec 中的数学原理 的一些笔记和总结。...原创 2018-07-19 16:12:28 · 885 阅读 · 0 评论 -
ValueError: Variable rnnlm/multi_rnn_cell/cell_0/basic_lstm_cell/kernel already exists, disallowed.
报错:ValueError: Variable rnnlm/multi_rnn_cell/cell_0/basic_lstm_cell/kernel already exists, disallowed.原因:模型重用解决方法:在构建图的代码块上加上with tf.Graph().as_default():graph = tf.Graph()with graph.as_default()...原创 2018-11-05 23:09:39 · 2870 阅读 · 0 评论 -
CNN(卷积神经网络)介绍
https://zhuanlan.zhihu.com/p/25249694CNN通过权重共享、局部连接和池化操作减少训练的参数,训练的是卷积核(也叫滤波器)原创 2018-04-09 19:56:51 · 2831 阅读 · 0 评论 -
XGBoost调参指南
XGBoost调参指南参考-官网方法1可按照max_depth, min_child_weight colsamplt_bytree,eta的顺序一个一个调,每次调的时候其他参数保持不变方法2:防止过拟合When you observe high training accuracy, but low tests accuracy, it is likely that y...原创 2018-03-09 12:47:18 · 9678 阅读 · 0 评论 -
手把手教你用sklearn做特征工程
前言博主最近参加了几个kaggle比赛,发现做特征工程是其中很重要的一部分,而sklearn是做特征工程(做模型调算法)最常用也是最好用的工具没有之一,因此将自己的一些经验做一个总结分享给大家,希望对大家有所帮助目录1. 什么是特征工程?2. 数据预处理3. 特征选择4. 降维1. 什么是特征工程?有这么一句话在业界广泛流传,数据和特征决定了机器学习的上限,而模型和...原创 2018-03-09 13:01:13 · 15060 阅读 · 2 评论 -
李航《统计学习方法》——第二章 感知机模型
由于网上资料很多,这里就不再对算法原理进行推导,仅给出博主用Python实现的代码,供大家参考适用问题:二类分类 实验数据:由于是二分类器,所以将MINST数据集train.csv的label列进行了一些微调,label等于0的继续等于0,label大于0改为1。这样就将十分类的数据改为二分类的数据。获取地址train_binary.csv 实现代码:# encoding=utf...原创 2018-03-10 13:10:48 · 3367 阅读 · 0 评论 -
李航《统计学习方法》——第三章 k邻近法
由于网上资料很多,这里就不再对算法原理进行推导,仅给出博主用Python实现的代码,供大家参考适用问题:多类分类 三个基本要素:k值的选择、距离度量及分类决策规则 测试数据集:train.csv 实现代码:# encoding=utf-8import pandas as pdimport numpy as npimport timefrom sklearn.cross_v...原创 2018-03-10 13:16:42 · 4077 阅读 · 0 评论 -
李航《统计学习方法》——第四章 朴素贝叶斯法
由于网上资料很多,这里就不再对算法原理进行推导,仅给出博主用Python实现的代码,供大家参考适用问题:多类分类 基于贝叶斯定理和特征条件独立假设 常用的三个模型有: - 高斯模型:处理特征是连续型变量的情况 - 多项式模型:最常见,要求特征是离散数据 - 伯努利模型:要求特征是离散的,且为布尔类型,即true和false,或者1和0测试数据集:train.csv 实现代码(基...原创 2018-03-10 13:20:58 · 2874 阅读 · 0 评论 -
李航《统计学习方法》——第五章 决策树模型
由于网上资料很多,这里就不再对算法原理进行推导,仅给出博主用Python实现的代码,供大家参考适用问题:多类分类 三个步骤:特征选择、决策树的生成和决策树的剪枝 常见的决策树算法有:ID3:特征划分基于信息增益C4.5:特征划分基于信息增益比CART:特征划分基于基尼指数测试数据集:train.csv ID3算法代码:# encoding=utf-8import...原创 2018-03-10 13:26:28 · 3306 阅读 · 0 评论 -
李航《统计学习方法》——第六章 逻辑斯谛回归模型
由于网上资料很多,这里就不再对算法原理进行推导,仅给出博主用Python实现的代码,供大家参考二项逻辑斯谛回归适用问题:二类分类 可类比于感知机算法 实验数据:train_binary.csv 实现代码:# encoding=utf-8import timeimport mathimport randomimport pandas as pdfrom sklea...原创 2018-03-10 13:30:22 · 3298 阅读 · 1 评论 -
李航《统计学习方法》——第六章 最大熵模型
由于网上资料很多,这里就不再对算法原理进行推导,仅给出博主用Python实现的代码,供大家参考适用问题:多类分类 下面用改进的迭代尺度法(IIS)学习最大熵模型,将特征函数定义为: 与其他分类器不同的是,最大熵模型中的f(x,y)中的x是单独的一个特征,不是一个n维特征向量,因此我们需要对每个维度特征加一个区分标签;如X=(x0,x1,x2,…)变为X=(0_x0,1_x1,2_x2,...原创 2018-03-10 13:33:24 · 3338 阅读 · 0 评论 -
李航《统计学习方法》——第七章 支持向量机
由于网上资料很多,这里就不再对算法原理进行推导,仅给出博主用Python实现的代码,供大家参考适用问题:二类分类 实验数据:二分类的数据 train_binary.csv SVM有三种模型,由简至繁为当训练数据训练可分时,通过硬间隔最大化,可学习到硬间隔支持向量机,又叫线性可分支持向量机当训练数据训练近似可分时,通过软间隔最大化,可学习到软间隔支持向量机,又叫线性支持向量机当训练...原创 2018-03-10 13:36:09 · 5078 阅读 · 1 评论 -
李航《统计学习方法》——第八章 提升方法
提升方法就是组合一系列弱分类器构成一个强分类器,AdaBoost是其代表性算法AdaBoost算法适用问题:二类分类,要处理多类分类需进行改进 代码(用sklearn实现):# encoding=utf-8import pandas as pdimport timefrom sklearn.cross_validation import train_test_split...原创 2018-03-10 13:38:47 · 4119 阅读 · 0 评论 -
【TensorBoard】如何启动tensorboard的详尽步骤
转载自https://blog.youkuaiyun.com/jinlong_xu/article/details/71124589 TensorBoard是TensorFlow下的一个可视化的工具,能够帮助我们在训练大规模神经网络过程中出现的复杂且不好理解的运算。TensorBoard能展示你训练过程中绘制的图像、网络结构等。&...转载 2018-11-12 19:35:54 · 5786 阅读 · 1 评论