- 博客(38)
- 资源 (1)
- 收藏
- 关注
原创 pyspark总结2——DataFrame
spark的DataFrame与python的DataFrame类似,但是其处理速度远快于无结构的RDD。目录1,创建DataFrame2,查询方法2.1 利用DataFrame API查询2.2 利用SQL查询1,创建DataFrameSpark 2.0 用 SparkSession 代替了SQLContext。各种 Spark contexts,包括:HiveContext, SQLContext, StreamingContext,以及SparkContext 全部合并到了SparkSessi
2020-07-10 16:27:50
511
原创 pyspark总结1 —— RDD及其基本操作
本系列主要总结Spark的使用方法,及注意事项。目录1,spark简介2,RDD的转换(transformation)和行动操作(action)2.1,创建RDD2.1 transformation2.2 action1,spark简介Apache Spark是一个开源、强大的的分布式查询和处理引擎,最初由Matei Zaharia在UC Berkeley读博期间开发的[1]。最早的Spark版本于2012年发布,后来被捐赠给Apache SoftwareFoundation,成为Apache的旗舰
2020-07-09 20:31:26
1471
原创 推荐排序模型2—— wide&Deep及python(DeepCTR)实现
wide&Deep模型重点指出了Memorization和Generalization的概念,这个是从人类的认知学习过程中演化来的。人类的大脑很复杂,它可以记忆(memorize)下每天发生的事情(麻雀可以飞,鸽子可以飞)然后泛化(generalize)这些知识到之前没有看到过的东西(有翅膀的动物都能飞)。但是泛化的规则有时候不是特别的准,有时候会出错(有翅膀的动物都能飞吗)。那怎么办那,没关系,记忆(memorization)可以修正泛化的规则(generalized rules),叫做特例(企鹅
2020-06-24 16:34:09
2448
原创 推荐排序模型4—— Deep&Cross Network(DCN)及python(DeepCTR)实现
DCN全称Deep & Cross Network,是谷歌和斯坦福大学在2017年提出的用于Ad Click Prediction的模型。DCN(Deep Cross Network)在学习特定阶数组合特征的时候效率非常高,而且同样不需要特征工程,引入的额外的复杂度也是微乎其微的。目录1,DCN的基本结构和特点2,Embedding and Stacking Layer3, Cross Network1,DCN的基本结构和特点使用cross network,在每一层都应用feature c
2020-06-24 14:57:16
2112
1
原创 推荐排序模型3——DeepFM及python(DeepCTR)实现
CTR(Click-Through-Rate)即点击通过率,是互联网广告常用的术语,指网络广告(图片广告/文字广告/关键词广告/排名广告/视频广告等)的点击到达率,即该广告的实际点击次数除以广告的展现量。CTR是衡量互联网广告效果的一项重要指标。CTR预估数据特点:1)输入中包含类别型和连续型数据。类别型数据需要one-hot,连续型数据可以先离散化再one-hot,也可2)以直接保留原值3)维度非常高4)数据非常稀疏5)特征按照Field分组CTR预估重点在于学习组合特征。注意,组合特征包括
2020-06-23 20:30:07
7262
1
原创 推荐排序模型1——FM、FFM及python(xlearn)实现
排序模型在工业界已经有了很长时间的历史,从基于策略规则的人工指定特征权值开始,发展到LR线性模型,LR+GBDT半自动特征组合模型,再到FM自动二阶特征组合模型及深度学习模型等不断发展。其中FM系列模型占据比较重要的位置,本篇文章就FM模型进行分析和总结。目录1,概述2,FM模型1,概述在机器学习中,预测是一项基本的任务,所谓预测就是估计一个函数,该函数将一个n维的特征向量x映射到一个目标域T:D={(x(1),y(1)),(x(2),y(2)),...,(x(N),y(N))}D =\{(x^{
2020-06-22 18:22:26
4407
3
原创 集成学习3——随机森林(RF)与 bagging
随机森林大家都不会陌生,相对于XGB来讲,方法很简单,没有那么多复杂的公式,其主要是一种思想——bagging,关于抽样、统计的。随机森林也是决策树家族的一员,了解随机森林也得从决策树开始,感兴趣的可以参考这篇文章 决策树——ID3/C4.5/CART算法 以及 集成学习1——XGBoost目录1,概述2,RF的基本思想2.1 bagging思想2.2 两个要点1,概述为什么要出现RF算法?当然是因为决策树算法有很多缺点和不足:决策树算法的缺点:1)贪婪算法,陷入局部最优。2)树过深,容易过拟
2020-06-22 11:43:09
420
原创 集成学习2——XGBoost本身的特点,及XGB与GBDT、LGB、RF的区别于联系
XGB模型十分优秀,在很多大赛中表现很好,如果选出3个优秀的机器学习算法,XGB肯定能排上号。本部分将会总结XGB的众多关键点,同时对比其他相关的树模型,比如GBDT、LGB、RF等,理解了这些,拿下相关面试不在话下。集成学习1——XGBoost集成学习2——XGBoost本身的特点,及XGB与GBDT、LGB、RF的区别于联系目录1,简要介绍XGB2,XGB与GBDT的不同点3, XGB为什么要泰勒展开?4, XGB为什么可以并行?5 XGB为什么快?6 XGB防止过拟合的方法?7 XGB如何处理
2020-06-19 14:47:16
2565
原创 集成学习1——XGBoost
我们都知道决策树有个明显的缺点就是容易过拟合,树的深度不容易控制,同时其表达能力有限,容易受数据的影响稳定性差,那么如何在不改变原始模型的基础上进一步提高模型性能呢?有两个思路:一种是采用随机森林的方法,即bagging思想;另一种就是XGBoost方法,boosting思想。XGBoost可以认为是GBDT的改进和升级,其算法思路相似,实现过程不同,本篇我会以XGB的总结为主,并点出XGBoost与GBDT的不同。集成学习1——XGBoost集成学习2——XGBoost本身的特点,及XGB与GBDT
2020-06-19 14:45:53
930
原创 循环神经网络RNN 3——LSTM及其变体
LSTM(Long Short Term Memory networks)被称为长短期记忆模型,是一种比较特殊的循环神经网络,其基本结构和基本思路与RNN一样。关于模型,我们都知道LSTM有解决长依赖问题的能力,这是区别于普通RNN的地方。本篇将总结LSTM及其相关变体。目录1,LSTM概述2,剖析LSTM2.1 细胞状态2.2 忘记信息2.3 添加信息2.4 更新细胞状态2.5 输出细胞状态3 LSTM反向传播4 LSTM注意事项5 LSTM变体5.1 peephole connections5.2
2020-06-16 18:50:16
1724
原创 循环神经网络RNN 2—— attention注意力机制(附代码)
attention方法是一种注意力机制,很明显,是为了模仿人的观察和思维方式,将注意力集中到关键信息上,虽然还没有像人一样,完全忽略到不重要的信息,但是其效果毋庸置疑,本篇我们来总结注意力机制的不同方法。目录1,attention的定义2,基础的attention3, attention变体3.1,针对attention向量计算方式的变体3.1.1 Soft-attention3.1.2 Hard attention3.1.3 Local attention3.2, 针对attention score计
2020-06-15 19:17:58
7417
1
原创 循环神经网络RNN 1—— 基本模型及其变体
RNN是非常重要的神经网络结构,直接将数据处理提高了一个维度,在序列数据建模方面效果非常好,广泛应用于语音、视频、文本等领域,本篇将从模型结构上对RNN进行总结。(文末有相关的参考资料连接,有兴趣的可以进一步拓展。)目录1,RNN的基本结构1.1,单层网络1.2,经典的RNN结构(N vs N)2、RNN变体2.1 N vs 1 模型2.2, 1 vs N 模型2.3、N vs N模型1,RNN的基本结构RNN结构是从基本的神经网络变换而来的,加入了时间维度,可以很方便的处理序列数据。1.1,单
2020-06-15 17:53:39
1634
原创 Word2vector
Word2vector可以说是nlp的基石,但是其思想不仅仅局限在nlp,比如广告推荐中id的embedding也可以应用,本篇就来梳理一下w2v的思想。目录1,基本思想2,counting3,Skip-gram(Continuous Skip-gram Model)3.1 数据处理3.2 网络结构3.3 Skip-gram的改进4,CBOW(Continuous Bag-of-Words Model)5,总结1,基本思想Word2vector(简称w2v),字面上理解就是“词”转化为“向量”,或者
2020-06-01 17:58:54
770
1
原创 LDA主题模型2——文本建模与Gibbs采样求解
相信很多人第一次看到LDA算法都会头大,不管是看论文还是看博客,都少不了各种各样的公式和理论,概率分布、共轭分布、贝叶斯公式、Gibbs采样等等,一大堆耳熟又陌生的词,经常带着一大堆问号去学习,又带着一大堆问号离开。。。本篇文章将会一点点的将其攻克。...
2020-05-07 23:15:13
1070
2
原创 LDA主题模型1——数学基础
相信很多人第一次看到LDA算法都会先皱眉头,不管是看论文还是看博客,都少不了各种各样的公式和理论,概率分布、共轭分布、贝叶斯公式、Gibbs采样等等,一大堆耳熟又陌生的词,经常带着一大堆问号去学习,又带着一大堆问号离开。。。本篇文章将会一点点的将其攻克。LDA的数学基础有很多,最主要的两个是共轭分布的概念与Gibbs采样的概念。关于Gibbs采样,我有专门的文章对其总结,从问题到原理到案例,有...
2020-04-27 11:30:28
408
原创 MCMC详解1——蒙特卡洛方法
MCMC是一种随机采样方法,用来处理一些复杂运算的近似求解。在HMM、LDA等模型中都有重要应用。目录1,蒙特卡洛方法2,拒绝-接受采样MCMC( Markov Chain Monte Carlo)马尔科夫蒙特卡洛方法,从名称上包含蒙特卡洛方法与马尔科夫链两部分,本文先总结蒙特卡洛方法。1,蒙特卡洛方法最早的蒙特卡洛方法都是为了求解一些不太好求解的求和或者积分问题。θ=∫abf(x)...
2020-04-22 23:30:59
2267
原创 概率分布、概率密度、概率分布函数、概率密度函数
今天突然看到概率分布、概率密度函数等概念,有点懵,赶紧复习以下。理解相关概念首先要区分的是变量类型,离散变量与连续变量,不同的变量对应不同的概率描述方法,我们分开来看。离散变量概率分布、概率密度是针对离散型变量而言的。概率分布:列出所有变量X的取值以及对应的概率,一个也不能少。比如:Xx1x_1x1x2x_2x2…xnx_nxn…pip_ipip1...
2020-04-21 21:47:01
6301
原创 推荐系统11——《推荐系统实践》总结
在之前我也看了很多人写的推荐系统的博客,理论的、算法的都有,多是个人的理解和感悟,虽然很深刻,但是对于自己而言还是不成系统,于是我参考大牛项亮编著的《推荐系统实践》将该领域知识系统整理一遍,与大家一起学习。本系列对应的代码请查看https://github.com/wangyuyunmu/Recommended-system-practice前面总结推荐系统常用的数据、算法、架构等,具体内容清...
2020-04-20 21:07:04
634
原创 推荐系统10——评分预测问题
在之前我也看了很多人写的推荐系统的博客,理论的、算法的都有,多是个人的理解和感悟,虽然很深刻,但是对于自己而言还是不成系统,于是我参考大牛项亮编著的《推荐系统实践》将该领域知识系统整理一遍,与大家一起学习。本系列对应的代码请查看https://github.com/wangyuyunmu/Recommended-system-practice前面总结推荐系统常用的数据、算法、架构,但是都是在讨...
2020-04-17 23:36:40
3734
1
原创 推荐系统9——推荐系统实例架构
在之前我也看了很多人写的推荐系统的博客,理论的、算法的都有,多是个人的理解和感悟,虽然很深刻,但是对于自己而言还是不成系统,于是我参考大牛项亮编著的《推荐系统实践》将该领域知识系统整理一遍,与大家一起学习。本系列对应的代码请查看https://github.com/wangyuyunmu/Recommended-system-practice前面总结了:1)基于用户行为数据的推荐方法——协同...
2020-04-15 21:53:26
1238
原创 推荐系统8——利用社交网络数据推荐
在之前我也看了很多人写的推荐系统的博客,理论的、算法的都有,多是个人的理解和感悟,虽然很深刻,但是对于自己而言还是不成系统,于是我参考大牛项亮编著的《推荐系统实践》将该领域知识系统整理一遍,与大家一起学习。本系列对应的代码请查看https://github.com/wangyuyunmu/Recommended-system-practice前面总结了:1)基于用户行为数据的推荐方法——协同...
2020-04-15 21:13:53
3353
原创 推荐系统7——利用上下文信息进行推荐
在之前我也看了很多人写的推荐系统的博客,理论的、算法的都有,多是个人的理解和感悟,虽然很深刻,但是对于自己而言还是不成系统,于是我参考大牛项亮编著的《推荐系统实践》将该领域知识系统整理一遍,与大家一起学习。本系列对应的代码请查看https://github.com/wangyuyunmu/Recommended-system-practice前面总结了:基于用户行为数据的推荐方法——协同过滤...
2020-04-14 22:12:34
2146
原创 推荐系统6——基于标签的推荐方法
在之前我也看了很多人写的推荐系统的博客,理论的、算法的都有,多是个人的理解和感悟,虽然很深刻,但是对于自己而言还是不成系统,于是我参考大牛项亮编著的《推荐系统实践》将该领域知识系统整理一遍,与大家一起学习。本系列对应的代码请查看https://github.com/wangyuyunmu/Recommended-system-practice前面三篇总结了基于用户行为数据的推荐方法——协同过滤...
2020-04-12 21:59:36
7131
原创 推荐系统5——冷启动
在之前我也看了很多人写的推荐系统的博客,理论的、算法的都有,多是个人的理解和感悟,虽然很深刻,但是对于自己而言还是不成系统,于是我参考大牛项亮编著的《推荐系统实践》将该领域知识系统整理一遍,与大家一起学习。本系列对应的代码请查看https://github.com/wangyuyunmu/Recommended-system-practice前面三篇总结了基于用户行为数据的推荐方法——协同过滤...
2020-04-10 23:18:32
679
原创 推荐系统4——图模型(PersonalRank)
在之前我也看了很多人写的推荐系统的博客,理论的、算法的都有,多是个人的理解和感悟,虽然很深刻,但是对于自己而言还是不成系统,于是我参考大牛项亮编著的《推荐系统实践》将该领域知识系统整理一遍,与大家一起学习。本系列对应的代码请查看https://github.com/wangyuyunmu/Recommended-system-practice上一篇总结了基于用户行为数据的推荐方法——隐语义,本...
2020-04-09 22:55:45
1897
1
原创 推荐系统3——隐语义分析(LFM)
在之前我也看了很多人写的推荐系统的博客,理论的、算法的都有,多是个人的理解和感悟,虽然很深刻,但是对于自己而言还是不成系统,于是我参考大牛项亮编著的《推荐系统实践》将该领域知识系统整理一遍,与大家一起学习。本系列对应的代码请查看[https://github.com/wangyuyunmu/Recommended-system-practice](https://github.com/wangyuyunmu/Recommended-system-practice)上一篇总结了基于用户行为数据的推荐方法—
2020-04-08 23:25:40
779
原创 决策树——ID3/C4.5/CART算法
最近在梳理一些算法资料,正好趁这个机会将一些积累写在博客上,方便以后回顾和完善。1,决策树的基本概念决策树(Decision Tree)是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干,如图1所示,故称决策树。在机器学习中,决策树是一个预测...
2020-04-08 15:21:40
1412
原创 推荐系统2——协同过滤CF
推荐系统2——协同过滤CF1,实验设计与算法评测1.1, 数据准备1.2, 实验设计2, 评价指标2.1, recall/precision2.2, 覆盖率2.3 流行度3,协同过滤3.1,基于用户的协同过滤 userCF算法3.2 userIIF算法(改进相似度矩阵 )3.3 基于物品的协同过滤itemCF3.4 itemCF-IUF算法3.5 item-CF-normal算法4,综合比较use...
2020-04-08 14:59:06
837
原创 推荐系统1——概述
推荐系统是我接下来的主要学习方向,在之前我也看了很多人写的推荐系统的博客,理论的、算法的都有,多是个人的理解和感悟,虽然很深刻,但是对于自己而言还是不成系统,于是我参考大牛项亮编著的《推荐系统实战》将该领域知识系统整理一遍,与大家一起学习。(吐槽:简书太难用了,引用出处,放上链接就封号,连封3次,果断弃坑。。。)问题:在学习和研究推荐系统之前,先来了解一下这几个问题:1)什么是推荐系统...
2020-04-08 14:30:10
1021
1
转载 svm详细总结
支持向量机通俗导论(理解SVM的三层境界)作者:July ;致谢:pluskid、白石、JerryLead。出处:结构之法算法之道blog。前言 动笔写这个支持向量机(support vector machine)是费了不少劲和困难的,原因很简单,一者这个东西本身就并不好懂,要深入学习和研究下去需花费不少时间和精力,二者这个东西也不好讲
2014-10-12 20:57:31
981
转载 机器学习,计算机视觉,图像处理相关文献代码
注:下面有project网站的大部分都有paper和相应的code。Code一般是C/C++或者Matlab代码。最近一次更新:2013-9-7 一、特征提取Feature Extraction:SIFT [1] [Demo program][SIFT Library] [VLFeat]PCA-SIFT [2] [Project]Affine-S
2014-09-28 22:28:42
1058
转载 DL相关文献整理
http://hi.baidu.com/chb_seaok/item/6307c0d0363170e73cc2cb65个人阅读的Deep Learning方向的paper整理,分了几部分吧,但有些部分是有交叉或者内容重叠,也不必纠结于这属于DNN还是CNN之类,个人只是大致分了个类。目前只整理了部分,剩余部分还会持续更新。一 RNN1 Recurrent n
2014-09-23 09:17:59
675
原创 CNN: single-label to multi-label总结
CNN: single-label to multi-label1,概述首次看多目标检测的文章。文中指出多目标检测有两个框架:1)BoW,2)DL。BoW还没看过。当然本文用的是DL中的CNN(好处多多)。 首先,这篇文章是在程明明提出BING以后的一次应用。本文提出了一种HCP的框架结构(Hypotheses-CNN-Pooling),检测方法是利用BING和HS提取提取hypo
2014-08-25 11:35:39
6670
原创 BING:Binarized Normed Gradients for Objectness Estimation at 300fps 总结
刚刚接触目标检测的东西,这篇文章转载过其他人的笔记,但是总觉得 应该自己写一下“Regionlets for Generic Object Detection”有一段话:Object detection is composed of two key components: determing where the candidate locations are in images and
2014-08-23 11:08:06
1152
转载 关于研究方向寻找
看了版上很多贴子,发现很多版友都在问「热门研究方向」、「最新方法」等。有同学建议国内某教授的教材、或者CNKI、或者某些SCI期刊。每当看到这种问题,我都有点纳闷,为什么不去读顶级会议上的论文?我无意否认以上文献的价值,但是在机器学习、计算机视觉和人工智能领域,顶级会议才是王道。国内教材和CNKI上的基本是N年前老掉牙的东西。有人会质疑这些会议都只是EI。是的,这的确非常特殊:在许多其它领域,
2014-07-05 10:59:30
666
转载 c++中引用(&)的用法
引用是C++引入的新语言特性,是C++常用的一个重要内容之一,正确、灵活地使用引用,可以使程序简洁、高效。我在工作中发现,许多人使用它仅仅是想当然,在某些微妙的场合,很容易出错,究其原由,大多因为没有搞清本源。故在本篇中我将对引用进行详细讨论,希望对大家更好地理解和使用引用起到抛砖引玉的作用。 一、引用简介 引用就是某一变量(目标)的一个别名,对引用的操作与对变量直接操作完全一样。
2014-07-01 21:51:25
493
转载 BING : Binarized Normed Gradients for Objectness Estimation at 300fps 论文笔记
这篇CVPR2014的论文与之前那篇Boosting Binary Keypoint Detection一样,都是利用二进制来加速计算。不过这篇并不是做特征,而是去找图中的Object。它主要有两大亮点。第一个亮点是发现了在固定窗口的大小下,物体与背景的梯度模式有所不同。如图1所示。图1(a)中绿框代表背景,红框代表物体。如果把这些框都resize成固定大小,比如8X8,然后求出8X8这些块中每个
2014-06-20 11:32:47
1052
转载 Boosting Binary Keypoint Descriptors 论文笔记
今天读的是CVPR 2013的 Boosting Binary Keypoint Descriptors,是一篇有关用二进制来描述图像块(patch)的文章。另外mingming cheng 2013年也有一篇是用二进制的,不过是对整幅图像进行描述的,后面再介绍吧。跟传统的用浮点数等高精度单位来描述特征点相比,二进制描述最大的优势是表达紧凑(compact), 即二进制描述只需要用1个bit来
2014-06-20 11:27:14
933
learning tensorflow ——2017.pdf
2018-01-11
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人