
深度学习
文章平均质量分 85
律动的波纹
律动的波纹
展开
-
【Transformer系列】你需要的是Attention吗,MetaFormer介绍
Transformer提出时,作者认为效果好最重要的是注意力机制。然后MetaFormer证明Transformer的成功源于它的广义架构。原创 2022-06-29 19:51:24 · 812 阅读 · 0 评论 -
【优化算法】3. 学习率优化算法
文章目录概论基础牛顿法稀疏特征的学习率AdaGradAdadeltaRMSProp算法AdamYogi概论学习率(learning rate)决定目标函数能否收敛到最小值,和何时收敛到最小值。如果直接设定一个学习率η,是一个很棘手的问题。学习率η设定太小,算法就会进展缓慢,设定太大,就会震荡或者发散。针对这样的问题,就产生了学习率自适应算法。基础牛顿法函数f:Rd→Rf: \mathbb{R}^d \rightarrow \mathbb{R}f:Rd→R的泰勒展开式,事实上我们可以把它写成f(x原创 2022-04-24 19:22:59 · 2095 阅读 · 0 评论 -
【QLIB】 GBDT模型输出因子重要性
GBDT是有较好解释性的,我们可以通过模型获取到因子的重要程度。修改qlib/contrib/model/gbdt.py。增加方法,按照因子重要程度进行排序 def importance(self, importance, columns): df = pd.DataFrame({'feature': columns, 'importance': importance}) df.sort_values('importance',inplace=True,asce原创 2022-04-20 11:50:30 · 2376 阅读 · 0 评论 -
【优化算法】2. 梯度下降优化算法
文章目录概论随机梯度下降小批量随机梯度下降动量法泄漏平均值梯度加速算法概论梯度下降不会直接用于深度学习,在生产环境中,会使用梯度下降的优化算法深度学习中的目标函数通常是训练集中每个样本的损失函数平均值。给定nnn个样本的训练数据集,假设fi(x)f_i(x)fi(x)是第iii个训练样本的损失函数,其中XXX是参数向量。然后我们得到目标函数f(X)=1n∑i=1nfi(X)f(X) = \frac{1}{n}\sum_{i=1}^nf_i(X)f(X)=n1i=1∑nfi(X)XXX的目标原创 2022-04-19 19:35:44 · 393 阅读 · 0 评论 -
【优化算法】1. 深度学习优化算法介绍
文章目录概论优化的目标优化的挑战局部最小值鞍点梯度消失总结概论本文主要介绍深度学习与优化的关系,以及优化在深度学习使用中的问题和挑战。解决一个深度学习问题的基本步骤:定义损失函数。使用优化算法最小化损失。优化过程中,损失函数就是优化算法的目标函数。通常我们优化的目标是最小化,当遇到最大化问题时,我们可以给目标函数加个负号。优化的目标虽然优化算法是深度学习中用来减少损失函数的方法,但是优化算法和深度学习的目标是不同的。优化的目标是减少训练误差,最小化目标函数是基于训练集的损失函数。深度原创 2022-04-13 19:32:30 · 2147 阅读 · 0 评论 -
梯度下降详解
文章目录概论理论基础导数和微分偏导数梯度链式法则梯度下降数学定义一维梯度下降学习率局部最小多元梯度下降总结参考资料概论梯度下降(Gradient Descent GD)是用来寻求损失函数(loss function)最小化的方法,最为常用随机梯度下降(stochastic gradient descent)SGD,几乎可以解决除了决策树之外所有算法的损失函数最小化问题。比较通俗的例子是一个人站在山顶,为了尽快下山,这个人需要寻找当前位置最为陡峭的方向往下走。另一个更好的例子是山泉流入山谷的过程。原创 2022-04-12 19:05:18 · 1231 阅读 · 0 评论 -
【风控系列】5.风控规则谁来主导,产品还是运营?
文章目录概论规则引擎特征计算处置系统规则配置专家系统概论规则引擎是风控的总控。一个成熟的风控系统,规则引擎几乎要承担所有的决策。规则引擎的目标用户是产品和运营,那产品和运营的边界在哪里,我认为规则80%以上由运营来制定,产品要做的是给运营足够的授权和降低规则引擎的使用难度。规则引擎、策略配置、特征计算、专家系统、处置系统等问题的边界怎么定义才能使得系统更为高效,这里阐述下我的理解。规则引擎规则引擎是将输入的特征集合和规则集合进行计算,从而触发一个或者多个业务操作。从这里看规则引擎包括三个部分:输原创 2022-04-02 14:30:56 · 839 阅读 · 0 评论 -
【风控系列】4. 行之有效的风控业务目标
文章目录1. 概论2. 核心指标2.1 客诉量2.2 审核效率2.3 通报量3. 细粒度指标4. 垂直指标4.1 竞品效果对比4.2 效果验证4.3 特殊场景成长型指标5. 总结1. 概论 目标的重要性这里就不说了,目标考核不管是KPI还是OKR,目标都是需要量化的。设定目标可以概括为明确场景,确定核心指标,并以细粒度的指标拟合长期核心的指标。这个过程就需要我们构建一个指标体系。 指标可以分成成长型的和非成长型的。成长型如DAU、CTR,是会伴随着公司成长而成长的,且正相关,成长型很容易得到大家原创 2022-04-01 19:24:02 · 703 阅读 · 0 评论 -
【风控系列】3. 高效的风控业务流程
文章目录概论业务流程风控产品参考概论风控工作的核心是产品,或者说每个公司的核心都是产品。产品的研发也是有方法论的,产品研发体系(IPD)。一个体系是靠流程运转起来的,流程需要各个角色在工作中不断迭代形成的,是一个产品能否有竞争里的底层逻辑。风控中普遍涉及的流程有审核流程、巡检流程、专项治理流程、紧急事件处理流程。业务流程构建一个完整风控的业务流程包括标准、流程、工具、数据四个部分。标准:构建一个流程,首先要制定相关的标准和原则。比如审核流程需要制定风险的类别及定义,并进行相关人员培训,否则每个原创 2022-03-31 17:43:37 · 1203 阅读 · 0 评论 -
【风控系列】2. 如何构建一个有效的风控系统
文章目录0. 背景1. 第一代系统1.1 目标1.2 框架1.3 功能说明2. 第二代系统2.1 目标2.2 框架2.3 功能说明3. 第三代系统3.1 目标3.2 框架3.3 功能说明4. 第四代系统4.1 目标4.2 框架4.3 功能说明汇总参考0. 背景目前国内已经很多优秀的风控服务商,如同盾科技、数美科技、网易易盾等。本文根据自己的理解,给出了从头构建一个完整风控系统的一个思路。共分为了4个阶段,每个阶段根据不同的目标,实现不同的功能。下面进行具体的描述。1. 第一代系统第一代系统框架。1原创 2022-03-30 17:21:53 · 2676 阅读 · 0 评论 -
图卷积神经网络GCN
GNN1. 基础知识1.1 Spatial Domain(空间/拓扑域)和Spectral Domain(谱域)1.2 拉普拉斯矩阵1.3 三级目录1. 基础知识1.1 Spatial Domain(空间/拓扑域)和Spectral Domain(谱域)1.2 拉普拉斯矩阵1.3 三级目录原创 2021-02-24 15:21:57 · 333 阅读 · 0 评论 -
一文读懂「Attention is All You Need」
一文读懂「Attention is All You Need」1. 介绍2. 模型架构2.1 Encoder-Decoder 框架2.1.1 Encoder模块2.1.2 Decoder模块2.1.3 Attention模块2.2 Position-wise Feed-Forward 网络2.3 Embeddings and Softmax2.4 Positional Encoding2.5 Full Model3. 模型训练1. 介绍核心Transformer,Transformer抽象结构如图。原创 2021-01-18 18:58:10 · 1056 阅读 · 0 评论 -
一文读懂Attention
@[TOC] 一文读懂AttentionAttention本质是什么Attention(注意力)机制模仿了生物观察行为的内部过程,核心逻辑就是从关注全局到关注重点。如人的视觉在处理一张图片时,会通过快速扫描全局图像,获得需要重点关注的目标区域,也就是注意力焦点。然后对注意力焦点投入更多的注意力资源,以获得更多所需要关注的目标的细节信息,并抑制其它无用信息。Encoder-Decoder框架要理解Attention机制,就需要先介绍下Encoder-Decoder框架,因为大多数的注意力模型是依附于该原创 2021-01-12 18:17:49 · 727 阅读 · 0 评论