- 博客(21)
- 资源 (3)
- 收藏
- 关注
翻译 Target Encoding
Target Encoding二分类问题:记号: Target Y∈{0,1},Categorical feature XiTarget\text{ }Y\in\{0,1\}, Categorical \text{ }feature\text{ }X_iTarget Y∈{0,1},Categorical feature Xi...
2018-09-28 16:40:57
5044
原创 生成对抗网络
生成对抗网络 GAN模型GAN由生成器与判别器组成,需要同时训练两者,生成器通过噪音变量生成伪造的图片数据,而判别器对于输入图片来源于数据集还是伪造的图片要进行区分,生称器要尽可能的欺骗判别器(使判别器分辨不出图片的来源),而判别器要尽可能的判别出图片的来源,这是一个两方博弈的问题为了学习生成器对于数据的分布pgpgp_g,定义输入噪声先验变量pz(z)pz(z)p_z(z),生成器记...
2018-09-03 15:32:44
1060
原创 机器学习(七)EM算法
机器学习(七)EM算法7.1 EM 已知X为观测变量,Z为隐变量,θθ\theta为模型参数,欲对θθ\theta做极大似然估计 LL(θ|X,Z)=lnP(X,Z|θ)(7.1.1)(7.1.1)LL(θ|X,Z)=lnP(X,Z|θ)LL(\theta|X,Z)=lnP(X,Z|\theta)\tag{7.1.1} Z为隐变量无法直接求解上式,转为求解: LL(θ|X)=lnP(X...
2018-07-11 22:15:54
415
原创 机器学习(六)采样方法
机器学习(六)采样方法6.1 蒙特卡洛数值积分 计算f(x)f(x)f(x)的积分时,∫baf(x)dx∫abf(x)dx\int_a^bf(x)dx复杂不好求,可采用蒙特卡洛积分来近似 思想: ∫baf(x)dx=∫baf(x)q(x)q(x)dx∫abf(x)dx=∫abf(x)q(x)q(x)dx\int_a^bf(x)dx=\int_a^b\frac{f(x)}{q(x)}q...
2018-07-11 15:05:49
3881
原创 机器学习(五)降维
机器学习(五)降维5.1 PCA 用d′d′d\prime维向量表示ddd维向量样本,使得降维后的数据与源数据平方误差最小(投影到低维子空间中,使得原始数据在这个子空间的各个方向方差最大化)从最大重构性推导: 假设样本进行了中心化,∑ixi=0∑ixi=0\sum_ix_i=0,假设投影变换后得到的新坐标系为{w1,w2,...,wd′}{w1,w2,...,wd′}\{w_1,w...
2018-07-09 16:18:22
557
原创 机器学习(四)聚类算法
机器学习(四)聚类算法4.1 K-means 基于原型的聚类 假设类的结构可以用一组原型来刻画 划分方法 目标函数: E=∑i=1k∑x∈ci||x−μi||2(4.1.1)(4.1.1)E=∑i=1k∑x∈ci||x−μi||2E=\sum_{i=1}^k\sum_{x\in c_i}||x-\mu_i||^2\tag{4.1.1} 贪心策略: 随机选择k初始均值向量 ...
2018-07-08 17:47:25
1176
原创 机器学习(三)树模型
机器学习(三)树模型3.1 划分选择 3.1.1 信息增益 熵的定义如下,熵越小,纯度越高 Entropy(D)=−∑k=1|y|pklogpk(3.1.1)(3.1.1)Entropy(D)=−∑k=1|y|pklogpkEntropy(D)=-\sum_{k=1}^{|y|}p_klogp_k\tag{3.1.1} 信息增益定义如下,属性a有v个取值 Gain(D,a)==Ent...
2018-07-08 13:51:03
350
原创 深度学习(五) 循环神经网络基础
深度学习(五) 循环神经网络基础5.1 RNN RNN对于时序数据进行建模,上一刻的输出回作为下一时刻的输入。 更新方程: ht=tan(Wh(t−1)+Ux(t))0t=c+Vh(t)(5.1.1)ht=tan(Wh(t−1)+Ux(t))(5.1.1)0t=c+Vh(t)\begin{align}&h^t=tan(Wh^{(t-1)}+Ux^{(t)})\notag\\&0^t=...
2018-07-05 17:32:43
437
原创 深度学习(四) 卷积神经网络基础
深度学习(四) 卷积神经网络基础4.1 卷积层 卷积层的作用: 稀疏连接(局部感知):核大小远小于输入,存储的参数小,输入只和少部分输出的连接。以、一般认为图像的空间联系是局部的像素联系比较密切,而距离较远的像素相关性较弱,因此,每个神经元没必要对全局图像进行感知,只要对局部进行感知。 参数共享:在每一层内部,使用相同的卷积核。卷积核共享有个问题:提取特征不充分,可以通过增加多个...
2018-07-05 16:50:08
619
原创 深度学习(三) 优化算法
深度学习(三) 优化算法3.1 梯度下降 基本思想: 利用当前位置的负梯度作为搜索方向,因为该方向为当前位置的最快下降方向 缺点: 靠近极小值时收敛速度减慢,可能成之字形下降 GD 梯度下降: 最小化所有训练样本的损失函数,使得最终求解的是全局的最优解,即求解的参数是使得风险函数最小 大规模样本问题效率低下,使用全部的数据集 速度慢,占内存(用全部可能...
2018-07-03 16:46:12
910
原创 深度学习(二) 正则、BN、梯度消失
深度学习(二) 正则、BN、梯度消失2.1 正则化L1、L2正则数据增强,例如加入随机噪声,输入时加入,在隐藏层加入(方差极小的噪声);图像平移,旋转,色彩变化Early stopping 验证集的训练误差在一定轮数没有降低,则停止训练参数共享 Weight Sharing CNNBagging,构建不同的数据集,训练不同的模型,取平均,降低方差dropout 随机化断开连接。...
2018-07-02 21:01:27
3623
原创 机器学习(二)线性模型---SVM
机器学习(二)线性模型—SVM2.3 SVM 2.3.1 概述 SVM在特征空间找到一个超平面使得超平面能将两类分开,且间隔最大(解唯一) i. 当训练样本线性可分时,通过硬间隔最大化,学习一个线性分类器,即线性可分支持向量机; ii. 当训练数据近似线性可分时,引入松弛变量,通过软间隔最大化,学习一个线性分类器,即线性支持向量机; iii. 当训练数据线...
2018-06-30 17:37:35
1356
原创 机器学习(二)线性模型---LR
机器学习(二)线性模型—LR2.2 LR 2.2.1 基础 LR是一种二分类模型,属于线性模型的一种,是广义线性分类模型,采用极大似然估计,具有概率可解释性 条件概率: P(y=1|x)=σ(w⋅x)(14)(14)P(y=1|x)=σ(w⋅x)P(y=1|x)=\sigma(w\cdot x)\tag{14} P(y=0|x)=1−σ(w⋅x)(15)(15)P(y=...
2018-06-30 17:34:57
1273
原创 机器学习(二)线性模型---线性回归
机器学习(二)线性模型—线性回归2.1 线性回归 2.1.1 基本形式: 给定样本x=(x1,x2,...,xd)x=(x1,x2,...,xd)\textbf{x}=(x_1,x_2,...,x_d),线性模型通过如下方式计算预测值: f(x)=w1x1+w2x2+...+wdxd+b=w⋅x+b(1)(1)f(x)=w1x1+w2x2+...+wdxd+b=w⋅x+bf(\tex...
2018-06-30 17:34:05
347
原创 深度学习(一) 损失函数、输出单元、激活函数、反向传播
深度学习(一) 损失函数、输出单元、激活函数、反向传播深度前馈网络概述线性模型无论是凸优化还是闭式解都可以高效可靠地拟合,而它的缺陷是拟合能力局限于线性函数里,无法理解特征之间的相互作用。深度学习通过学习特征来优化模型,提高模型的性能。与线性模型的凸优化从任意初始解都能收敛到最优点不同的是,深度学习的代价函数往往是非凸的,使用梯度来进行模型的优化。这种非凸迭代优化对模型的初值...
2018-06-28 20:34:28
2438
1
原创 机器学习(一)基础常用损失函数、评价指标、距离、指标
机器学习(一)1.基础1.1 数据集划分方式留出法 按正负例比例划分数据集,多次训练模型取平均交叉验证 k折交叉验证形成k个数据集,每次取其中的1k1k\frac{1}{k}作为验证集 Bootstrapping每次从样本容量为D的集合重复的取元素D次,形成新的样本容量为D数据集某一样样本始终不出现的概率为 (1−1D)D(1−1D)D(1-\frac{1}{D}...
2018-06-27 15:20:16
2579
原创 基于知识的推荐系统
基于知识的推荐系统一些物品如地产、房屋的的推荐上,用户没有足够的评分,基于知识的推荐系统以一种交互的方式向用户推荐符合其要求的物品。 适用场景:用户提供需求物品过于复杂无法获取足够的评分时间敏感的基于限制的推荐系统用户在这样的推荐系统中指出他们对于物品属性的需求、限制,在用户输入一定的需求后,推荐系统将这些需求根据知识转化为规则,并根据这些规则返回满足的物品。 推荐系统...
2018-06-25 10:23:05
6565
原创 基于内容的推荐系统
基于内容的推荐系统协同过滤推荐系统仅仅使用了评分之间的关联,这些方法没有使用物品的属性基于内容的推荐系统以属性来描述物品,使用这些内容属性来进行推荐,这种方法很适用于新物品推荐时基于内容的推荐系统,将物品与用户之前所喜欢的物品做匹配,不使用别的用户的评分信息属性来源: 物品描述,如文字、图片等用户画像,从用户对于各种物品的反馈生成文本预处理去停止词 a, an, e...
2018-06-22 17:18:21
2131
2
原创 集成学习总结
集成学习———————————————————————————————————————————————————————–BaggingRF采样 + 属性选择 采用Bootstrap随机选择训练样本,Bootstrap有放回的选择训练样本,单个 样本p次不被采样到的概率是(1−1m)p(1−1m)p(1-\frac{1}{m})^p,limp→∞(1−1m)p=1e≈0....
2018-06-20 21:01:08
428
原创 基于模型的推荐系统
4. 隐语义模型4.1 矩阵分解评分数据是高度相关的,数据的冗余可以让我们用低秩矩阵来近似原矩阵。隐语义模型目前是the state of art。 U为m×kU为m×kU 为m \times k的矩阵,V为n×kV为n×kV 为n \times k的矩阵,他两的乘积用以估计评分矩阵 R≈UVT(1)(1)R≈UVTR\approx UV^T \tag1 通过优化目标函数来求解U...
2018-06-19 15:03:41
3575
原创 基于近邻的推荐系统
推荐系统1. 分类CF Bases Memory Based: User CF, Item CFModel BasedContent Based Knowledge BasedDemographic Based 2. 评分矩阵评分矩阵的类型有:连续值、整形、离散值、二元、一元(隐反馈) 离散值举例:trongly Disagree、Disagree、Neu...
2018-06-16 17:11:18
726
目标检测经典论文
2018-09-28
Deep Learning for Computer Vision with Python全三册
2018-07-30
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人