自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Susan Wong

从此爱上Hello World

  • 博客(52)
  • 资源 (1)
  • 收藏
  • 关注

原创 深度学习-卷积神经网络发展

文章目录1. LeNet(1998)2. AlexNet(2012)3. VGG(2014)3.1 网络结构3.2 其他细节4. Inception Net(2014)4.1 Inception V1(GoogLeNet)4.2 Inception V2(2015)4.3 Inception V3(2015)4.3.1 关于四条设计神经网络的原则4.3.2 关于如何分解大卷积核的卷积层4.3.3 ...

2020-03-17 23:18:58 3662

原创 论文阅读之推荐1-Parameter-Efficient Transfer from Sequential Behaviors for User Modeling and Recommendation

Parameter-Efficient Transfer from Sequential Behaviors for User Modeling and Recommendation1.0 摘要总结参考文章1.0 摘要总结参考文章https://arxiv.org/pdf/2001.04253.pdfhttps://github.com/fajieyuan/sigir2020_peterrechttps://cloud.tencent.com/developer/article/163003

2021-03-17 11:59:27 2329

原创 Parameter-Efficient Transfer from Sequential Behaviors for User Modeling and Recommendation讲解

大家好, 今天为大家分享的是来自腾讯的一篇收录到顶会SIGIR的一篇论文, Parameter-Efficient Transfer from Sequential Behaviors for User Modeling and Recommendation,论文共有11页,我大概会用25分钟左右的时间为大家进行讲述,如果有小伙伴之前有看过这篇文章,那么在讲述的过程中发现有些遗漏或者理解有偏差的话,欢迎及时指正; 现在正式开始,首先介绍一下作者,一作是原发杰博士, 攻读博士及腾讯工作期间主要从事机器学习相

2021-03-16 20:30:05 1017

原创 spark基础之4.0-聚合函数agg的使用

文章目录1.0 背景2.0 实现方式2.1 实现基础和一些小原则2.2 实现原理2.3 代码2.4 代码亮点1.0 背景基于上一篇博客的背景, 要求,在一个dataframe中按照不同的时间跨度对item_id进行groupby来统计,最后生成不同时间跨度的df示例: 从图一转为图二图一:图二2.0 实现方式2.1 实现基础和一些小原则在使用Scala完成Spark作业时,应尽量注意一些原则,保证具有Scala风格:尽量不要定义可变的变量var;尽量不要写for循环,基本都可以通多m

2021-03-08 20:32:08 1552

原创 Spark基础之3.0-实践

文章目录1. Spark常规作业1.1 任务背景1.2 解决方案2. Spark Steaming作业2.1 任务背景2.2 解决方案1. Spark常规作业1.1 任务背景对每天的产生的日志进行曝光,点击等行为的PV和UV的计算,同时需要区分新老用户,然后将不同的类别的PV和UV以一列的形式展示原始日志:userId, itemId, userType, action处理完后需要不同天数统计结果,每个天数集合都是以下形式, 并将所有天数集合的数据放入同一个表格中:new_click_pv,

2021-02-09 15:12:40 446

原创 Spark基础之2.0-Spark Streaming

目录1. Spark Streaming简介2. Spark窗口和updateStateByKey的使用1. Spark Streaming简介Spark Streaming是Spark提供的,对于大数据实时计算的一种框架, 底层依旧是Spark Core,因此基本的计算模型,还是基于内存的大数据实时计算模型.而且底层的组件核心还是RDD只不过针对实时计算的特点,在RDD之上进行了一层封装,叫DStream,其实底层和封装的Dataframe一样都是RDD, 因此 RDD是Spark的核心Spark

2021-02-08 17:22:05 198 2

原创 Spark基础之1.0-原理

1. Hadoop与spark的关系Hadoop是典型的大数据批量处理架构,有HDFS负责静态数据的存储,并通过MapReduce将计算逻辑分配到个数据节点进行数据计算;将每次MapReduce的结果从内存写入磁盘,IO很大;Spark与Hadoop配合开发,将数据一直存在内存当中,指导获取最后的结果后才会写入磁盘;伯克利大学将 Spark 的整个生态系统成为 伯克利数据分析栈(BDAS),在核心框架 Spark 的基础上,主要提供四个范畴的计算框架:3.1 spark SQL 提供S

2021-02-07 21:19:09 182 1

原创 机器学习之-XGBoost2.0 -实践

目录1.0 XGBoost如何评价特征的重要性2.0 XGBooost参数调优的一般步骤2.1 确定learning rate和estimator的数量2.2 max_depth和 min_child_weight2.3 gamma2.4 subsample, colsample_bytree2.5 正则化参数2.6 降低学习率3.0 XGBoost参数详解3.1 常规参数3.2 模型参数3.2.1 Tree Booster3.2.1 Linear Booster3.3 训练参数参考链接1.0 XGBoo

2021-01-25 20:59:18 1056 1

原创 机器学习之-XGBoost1.0 -原理

目录写在前面1.0 决策树参考链接写在前面毕业之后开始做推荐,接触了很多机器学习的知识和技能,依旧是从小白做起,认真学习,认真记录,从Xgb开始,当然一些很基础的知识,比如叶节点之类的就不在此赘述.1.0 决策树目前最流行的两类算法是 基于深度学习的-神经网络 和 基于机器学习的 树形算法 主要是决策树, 决策树分为 1. 分类决策树:处理离散数据 2. 回归决策树:处理连续数据决策树是将空间用超平面进行划分,每次分割,都将当前的空间根据特征的取值进行划分,最终使每一个叶子节点都是在当前空间的一个

2021-01-24 18:10:23 443 1

原创 校招算法岗面试-4

文章目录小米二面基础知识算法问题小米二面基础知识模型过拟合特征工程防止梯度消失和爆炸(RNN LSTM)传统机器学习的评估标准FM(因子分解机)caffe框架的原理算法问题二维整数数组topK整数数组最大序列和...

2020-03-06 16:08:38 267

原创 校招算法岗面试-3

基础知识SVM决策树,回归,分类GBDT和Adaboost区别特征选择软间隔、硬间隔python的多线程spark算子

2020-02-27 15:53:47 234

原创 校招算法岗面试-2

百度一面(视频)基础知识神经网络中,一些基础网络的进化设置不同卷积和大小的原因inceptionnet的1*1卷积目的,为了提高训练准确度做的改进神经网络的评价标准,auc的目的,roc精确率,准确率,召回率C++容器Redis用在哪里,特点是什么LR的损失函数CTR,NLPword2vec编程逆序二维矩阵,统计非零数的个数百度二面(视频)基础知识损失不收敛的...

2020-02-24 14:13:21 265

原创 校招算法岗面试-1

文章目录机器学习CV算法岗面试-基础知识部分:机器学习CV算法岗面试-代码部分机器学习CV算法岗面试-基础知识部分:MobileNet的特点,以及v1-v3的提升点Yolo系列特点及每次的改进,多尺度体现在哪里,损失函数的改进Darknet的特点,19,53卷积的计算量和参数量的计算卷积,池化的前向传播和反向传播的具体计算(带入具体的值进行推导)BN层的作用已经 γ\gammaγ和...

2020-02-18 22:14:36 448

原创 实习中的小技能-CV算法篇-3

文章目录numpy中reshape和transpose的区别python魔术方法numpy中reshape和transpose的区别reshape是平铺之后重新reshape,transpose直接换位置,不进行平铺import numpy as npa=np.arange(12)print('****a*****\n')print(a)print('\n\n****reshape...

2019-12-14 14:28:04 217

原创 实习中的小技能-CV算法篇-2

目录 1. Pytorch2Caffe2. 数据增强-imgaug3. 图片归一化3.1 Pytorch3.2 PIL3.3 OpenCV1. Pytorch2CaffePytorch2caffeexample路径下可直接转,如有全局平均池化,需自己在prototxt中加入,测试squeezenet没有问题2. 数据增强-imgaugimport randomfrom imgaug i...

2019-12-14 13:42:09 645

原创 实习中的小技能-CV算法篇-1

文章目录服务器挂载与卸载优盘1. 步骤2. 命令FFmpeg截取视频1. 单个视频处理方法win10版本2. 批处理python版分卷压缩与解压1. 压缩2. 解压服务器后台运行1. 后台运行,保存为nohup.out日志2. 重定向写入指定文件3. 后台运行且控制台能看到服务器挂载与卸载优盘1. 步骤在没有插优盘时查看/dev下面的设备插上优盘再次查看,多出来的就是优盘的名称 一般为s...

2019-11-23 23:25:23 416

转载 csdn-markdonwn

这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Ma...

2019-08-08 10:20:57 172

转载 latex数学符号

原文链接:http://www.mohu.org/info/symbols/symbols.htm

2019-07-12 12:07:33 7319

转载 Markdown的基本使用

原文链接:https://blog.youkuaiyun.com/u011419965/article/details/50536937#字体字号颜色

2019-07-12 12:06:15 114

原创 深度学习基础-从感知机(神经元)说起

1 感知机在机器学习中,感知机(perceptron)是二分类的线性分类模型,属于监督学习算法。输入为实例的特征向量,输出为实例的类别(取+1和-1)。感知机对应于输入空间中将实例划分为两类的分离超平面。感知机旨在求出该超平面,为求得超平面导入了基于误分类的损失函数,利用梯度下降法 对损失函数进行最优化(最优化)。如上图所示,输入任意的特征向量x′∈Rn×1\boldsymbol{x}&a...

2019-07-11 17:49:14 579

原创 深度学习-数学基础

1. 线性代数1 线性代数:向量Vector,可以使任意维度标量Scalar矩阵Matrix,来自相同的向量空间的向量构成矩阵张量Tensor2 矩阵运算加减乘,转置两个列向量点成值为一个张量矩阵的秩,极大无关组的个数单位矩阵矩阵行列式矩阵的逆向量标准化伪逆矩阵单位向量和向量投影特征向量,特征值协方差矩阵矩阵的特征方程特征值和特征向量没有指定向量空间...

2019-07-10 22:43:43 753

原创 面试之-2.0集成学习Boosting和Bagging

集成学习(Ensemble Learning)/多分类系统(Multi-Classifier System)/基于委员会的学习(Community-based Learning)概念通过合并多个学习器来完成学习任务同质学习器中的的个体学习器,叫基学习器,算法叫基学习算法,异质学习器中的个体学习器叫“组件”或直接叫“个体学习器”,算法也不是基学习算法。特点一般情况,集成学习要求个体学习器要...

2019-05-24 23:48:43 344

原创 面试之-3.0概率质量函数,概率密度函数,概率分布函数

背景在学习集成学习时,周志华老师的西瓜书中出现了P(⋅)P(·)P(⋅)和P(⋅∣⋅)P(·|·)P(⋅∣⋅)分别为概率质量函数,条件概率质量函数,在此进行扩充。(注:研究一个随机变量,不只要看它能取什么值,更重要的是更重要的是各种取值的概率分布!!!!)概率函数(分布律)-> 离散型概率质量函数(Probability Mass Function,PMF)用函数形式表达概率,如...

2019-05-24 13:03:05 2816

原创 面试之-1.0数据集类别分布不平衡问题

数据分布不平衡解决方法(ML版)数据角度:扩大数据集:最主要是添加小类别数据采样: 上采样(增加小样本数)和下采样(减少大样本数)–> 上采样由于样本会重复出现,容易出现过拟合;下采样由于都是一部分数据导致模型只学习到一部分特征 —> 针对上采样问题:上采样,在每次新生成的数据点时加入随机扰动;下采样:①(Easy Ensemble)多次下采样(有放回),产生多个不同的数据...

2019-05-22 23:44:50 2473

原创 深度学习基础之-0.0写在前面

摘要笔者涉及深度学习不到一年时间,入手的时候直接从几大经典的卷积神经网络入手,AlexNet,GoogLeNet,FCN入手,有点空中造楼阁的意味。很是不结实,建议从读者们不要像我这样,基本的知识是需要搞清楚的。趁着最近有点时间,抓紧补了补之前的知识,在未来的几章中均是参考github上一个大神之作,浅显易懂。如果有能阅读数学公式的插件,可以直接阅读大神的文章。这篇博客是我总结完关于深度学习...

2019-05-19 22:49:32 199

转载 深度学习基础之-6.1卷积神经网络

卷积的数学定义(1)h(x)=(f∗g)(x)=∫−∞∞f(t)g(x−t)dth(x)=(f*g)(x) = \int_{-\infty}^{\infty} f(t)g(x-t)dt \tag{1}h(x)=(f∗g)(x)=∫−∞∞​f(t)g(x−t)dt(1)卷积与傅里叶变换有着密切的关系。利用这点性质,即两函数的傅里叶变换的乘积等于它们卷积后的傅里叶变换,能使傅里叶分析中许多问题的处...

2019-05-19 21:35:04 349

转载 深度学习基础之-5.2非线性分类-多分类

提出问题有如下1000个样本和标签:样本序号123…1000x10.00918670.10245588-0.41033773…-0.20625644x20.006666770.209478820.18172314…0.19683694y123…2还好这个数据只有两个特征,所以我们可以用可视化的方法展示,如下图:定义...

2019-05-19 16:06:04 1756

转载 深度学习基础之-5.1非线性分类-二分类(神经元解决异或问题)

逻辑异或门样本1234x10011x20101y0110理想分类结果实践证明两层神经网络可以解决问题。我们可以模拟这个思路,用两层神经网络搭建如下模型:输入层两个特征值x1, x2 {(0, 0),(0, 1),(1,0),(1, 1)}隐层2x2的权重矩阵和2x1的偏移矩阵隐层由两个神经元构成输出层有一个神经元使...

2019-05-19 15:37:12 5795

转载 深度学习基础之-4.2非线性回归-单入单出双层神经网络回归/拟合实例全过程

提出问题目的:验证前馈神经网络的万能近似定理。神经网络的万能近似定理:一个前馈神经网络如果具有线性层和至少一层具有"挤压"性质的激活函数(如signmoid等),给定网络足够数量的隐藏单元,它可以以任意精度来近似任何从一个有限维空间到另一个有限维空间的borel可测函数。要相符上面的定理,也就是想拟合任意函数,一个必须点是“要有带有“挤压”性质的激活函数”。这里的“挤压”性质是因为早期对神经...

2019-05-19 10:14:48 4091 3

转载 深度学习基础之-4.1非线性回归-激活函数

非线性回归当神经网络不是一层的时候,就需要对每一层的输出加一个激活函数,将输出进行非线性的映射,否则不论网络有多少层,线性的变换永远可以视为一次线性的变换,不能解决复杂问题激活函数看神经网络中的一个神经元,为了简化,假设该神经元接受三个输入,分别为x1,x2,x3x_1, x_2, x_3x1​,x2​,x3​,那么z=∑iwixi+biz=\sum\limits_{i}w_ix_i+b_i...

2019-05-18 22:39:51 6358

转载 深度学习基础之-3.4神经网络多分类

分类函数 - Softmax为什么叫做Softmax?假设输入值是:[3,1,-3],如果取max会变成:[1,0,0],这符合我们的分类需要。但是max操作本身不可导,无法用在反向传播中,所以加了个"soft"来模拟max的行为。公式aj=ezj∑i=1mezi=ezjez1+ez2+⋯+ezm a_j = \frac{e^{z_j}}{\sum\limits_{i=1}^m e^{z_...

2019-05-18 21:40:42 9381

转载 深度学习基础之-3.3线性二分类的神经网络实现

线性二分类的神经网络实现提出问题回忆历史,公元前206年,楚汉相争,当时刘邦项羽麾下的城池地理位置如下:0.红色圆点,项羽的城池1.绿色叉子,刘邦的城池其中,在边界处有一些红色和绿色重合的城池,表示双方激烈争夺的拉锯战。样本序号123…119经度相对值0.0254.109…7.767纬度相对值3.4088.012…1.872...

2019-05-18 20:21:44 3388 1

转载 深度学习基础之-3.2线性二分类

二分类原理分类函数对率函数Logistic Function,本身是激活函数,又可以当作二分类的分类函数。公式a(z)=11+e−za(z) = \frac{1}{1 + e^{-z}}a(z)=1+e−z1​导数a′(z)=a(z)(1−a(z))a^{'}(z) = a(z)(1 - a(z))a′(z)=a(z)(1−a(z))输出值域[0,1][0,1][...

2019-05-18 13:28:02 1616

转载 深度学习基础之-3.1分类

二分类问题我们先看看如何用神经网络在两组不同标签的样本之间画一条明显的分界线。这条分界线可以是直线,也可以是曲线。这就是二分类问题。如果只画一条分界线的话,无论是直线还是曲线,我们用一支笔,即一个神经元,就可以达到目的。线性二分类非线性二分类多分类问题如果有三个以上的分类同时存在,我们需要对每一类别分配一个神经元,这个神经元的作用是根据前端输入的各种数据,先做线性...

2019-05-18 12:10:33 503

转载 深度学习基础之-2.6标签值归一化

提出问题在计算Loss时,会达到172.287,337.246这样大的数值,一般Loss都应该小于1.解决问题标签值也归一化公式如下:(1)ynew=y−yminymax−ymin=y−yminyrangey_{new} = \frac{y-y_{min}}{y_{max}-y_{min}} = \frac{y-y_{min}}{y_{range}} \tag{1}ynew​=ymax​−...

2019-05-18 11:50:48 10937 9

转载 深度学习基础之-2.5正规方程Normal Equations

正规方程 Normal Equations对于线性回归问题,除了前面提到的最小二乘法可以解决一元线性回归的问题外,对于多元线性回归,可以用正规方程来解决,也就是得到一个数学上的解析解。它可以解决下面这个公式描述的问题:(1)y=a0+a1x1+a2x2+⋯+akxky=a_0+a_1x_1+a_2x_2+\dots+a_kx_k \tag{1}y=a0​+a1​x1​+a2​x2​+⋯+ak​...

2019-05-17 18:03:11 602 1

转载 深度学习基础之-2.4梯度下降的三种形式(单变量,全批量,小批量)

单变量随机梯度下降(SDG(Stochastic Grident Descent))正向计算过程:Zn×1=Wn×f⋅Xf×1+Bn×1Z^{n \times 1}=W^{n \times f} \cdot X^{f \times 1} + B^{n \times 1}Zn×1=Wn×f⋅Xf×1+Bn×1 An×1=a(Z)A^{n \times 1}=a(Z)An×1=a(Z)反向计算过...

2019-05-17 17:50:44 1010

转载 深度学习基础之-2.3简单的神经网络(单个输入/多个输入)做线性回归+特征值归一化

输入层它在输入层只接受一个输入,经过参数w,b的计算后,直接输出结果。这样一个简单的“网络”,只能解决简单的一元线性回归问题,而且由于是线性的,我们不需要定义激活函数,这就大大简化了程序,而且便于大家循序渐进地理解各种知识点。下面,我们在这个最简的线性回归的例子中,来说明神经网络中最重要的反向传播和梯度下降的概念和过程以及编码实现。X=(x1x2…x200) X=\begin{pmatrix}...

2019-05-17 17:00:46 12938 4

转载 深度学习基础之-2.2用梯度下降法求解w,b

用梯度下降法求解w,b。预设函数 Hypothesis Functionz=wx+bz = wx+bz=wx+b损失函数 Loss FunctionJ(w,b)=12(z−y)2J(w,b) = \frac{1}{2}(z-y)^2J(w,b)=21​(z−y)2z是预测值,y是样本标签值。求w的梯度我们用J的值作为基准,去求w对它的影响,也就是J对w的偏导数(链式求导):∂J(w...

2019-05-17 16:08:27 3638

转载 深度学习基础之-2.1回归

回归回归分析是一种数学模型。当因变量和自变量为线性关系时,它是一种特殊的线性模型。最简单的情形是一元线性回归,由大体上有线性关系的一个自变量和一个因变量组成,模型是:Y=a+bX+εY=a+bX+εY=a+bX+εX是自变量,Y是因变量,ε是随机误差。通常假定随机误差的均值为0,方差为σ2(σ2﹥0,σ^2与X的值无关)。若进一步假定随机误差遵从正态分布,就叫做正态线性模型。一般的,若有...

2019-05-17 15:31:03 439

ffmpeg-20190101-1dcb5b7-win64-static.rar

将视频切成帧,可以隔帧取,实现视频到图片的转换,所以超级好用,而且能提高效率,预处理时候可以采用,linux貌似自带,Windows需要下载

2019-11-23

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除