端坐的小王子-优快云博客

原创 pyspark总结2——DataFrame

spark的DataFrame与python的DataFrame类似，但是其处理速度远快于无结构的RDD。目录1，创建DataFrame2，查询方法2.1 利用DataFrame API查询2.2 利用SQL查询1，创建DataFrameSpark 2.0 用 SparkSession 代替了SQLContext。各种 Spark contexts，包括:HiveContext, SQLContext, StreamingContext,以及SparkContext 全部合并到了SparkSessi

2020-07-10 16:27:50 511

原创 pyspark总结1 —— RDD及其基本操作

本系列主要总结Spark的使用方法，及注意事项。目录1，spark简介2，RDD的转换（transformation）和行动操作（action）2.1,创建RDD2.1 transformation2.2 action1，spark简介Apache Spark是一个开源、强大的的分布式查询和处理引擎，最初由Matei Zaharia在UC Berkeley读博期间开发的[1]。最早的Spark版本于2012年发布，后来被捐赠给Apache SoftwareFoundation，成为Apache的旗舰

2020-07-09 20:31:26 1471

原创推荐排序模型2—— wide&Deep及python（DeepCTR）实现

wide&Deep模型重点指出了Memorization和Generalization的概念，这个是从人类的认知学习过程中演化来的。人类的大脑很复杂，它可以记忆(memorize)下每天发生的事情（麻雀可以飞，鸽子可以飞）然后泛化(generalize)这些知识到之前没有看到过的东西（有翅膀的动物都能飞）。但是泛化的规则有时候不是特别的准，有时候会出错（有翅膀的动物都能飞吗）。那怎么办那，没关系，记忆(memorization)可以修正泛化的规则(generalized rules)，叫做特例（企鹅

2020-06-24 16:34:09 2448

原创推荐排序模型4—— Deep&Cross Network（DCN）及python（DeepCTR）实现

DCN全称Deep & Cross Network，是谷歌和斯坦福大学在2017年提出的用于Ad Click Prediction的模型。DCN(Deep Cross Network)在学习特定阶数组合特征的时候效率非常高，而且同样不需要特征工程，引入的额外的复杂度也是微乎其微的。目录1，DCN的基本结构和特点2，Embedding and Stacking Layer3, Cross Network1，DCN的基本结构和特点使用cross network，在每一层都应用feature c

2020-06-24 14:57:16 2112 1

原创推荐排序模型3——DeepFM及python（DeepCTR）实现

CTR（Click-Through-Rate）即点击通过率，是互联网广告常用的术语，指网络广告（图片广告/文字广告/关键词广告/排名广告/视频广告等）的点击到达率，即该广告的实际点击次数除以广告的展现量。CTR是衡量互联网广告效果的一项重要指标。CTR预估数据特点：1）输入中包含类别型和连续型数据。类别型数据需要one-hot,连续型数据可以先离散化再one-hot，也可2）以直接保留原值3）维度非常高4）数据非常稀疏5）特征按照Field分组CTR预估重点在于学习组合特征。注意，组合特征包括

2020-06-23 20:30:07 7262 1

原创推荐排序模型1——FM、FFM及python（xlearn）实现

排序模型在工业界已经有了很长时间的历史，从基于策略规则的人工指定特征权值开始，发展到LR线性模型，LR+GBDT半自动特征组合模型，再到FM自动二阶特征组合模型及深度学习模型等不断发展。其中FM系列模型占据比较重要的位置，本篇文章就FM模型进行分析和总结。目录1，概述2，FM模型1，概述在机器学习中，预测是一项基本的任务，所谓预测就是估计一个函数，该函数将一个n维的特征向量x映射到一个目标域T：D={(x(1),y(1)),(x(2),y(2)),...,(x(N),y(N))}D =\{(x^{

2020-06-22 18:22:26 4407 3

原创集成学习3——随机森林（RF）与 bagging

随机森林大家都不会陌生，相对于XGB来讲，方法很简单，没有那么多复杂的公式，其主要是一种思想——bagging，关于抽样、统计的。随机森林也是决策树家族的一员，了解随机森林也得从决策树开始，感兴趣的可以参考这篇文章决策树——ID3/C4.5/CART算法以及集成学习1——XGBoost目录1，概述2，RF的基本思想2.1 bagging思想2.2 两个要点1，概述为什么要出现RF算法？当然是因为决策树算法有很多缺点和不足：决策树算法的缺点：1）贪婪算法，陷入局部最优。2）树过深，容易过拟

2020-06-22 11:43:09 420

原创集成学习2——XGBoost本身的特点，及XGB与GBDT、LGB、RF的区别于联系

XGB模型十分优秀，在很多大赛中表现很好，如果选出3个优秀的机器学习算法，XGB肯定能排上号。本部分将会总结XGB的众多关键点，同时对比其他相关的树模型，比如GBDT、LGB、RF等，理解了这些，拿下相关面试不在话下。集成学习1——XGBoost集成学习2——XGBoost本身的特点，及XGB与GBDT、LGB、RF的区别于联系目录1，简要介绍XGB2，XGB与GBDT的不同点3, XGB为什么要泰勒展开?4, XGB为什么可以并行?5 XGB为什么快？6 XGB防止过拟合的方法？7 XGB如何处理

2020-06-19 14:47:16 2565

原创集成学习1——XGBoost

我们都知道决策树有个明显的缺点就是容易过拟合，树的深度不容易控制，同时其表达能力有限，容易受数据的影响稳定性差，那么如何在不改变原始模型的基础上进一步提高模型性能呢？有两个思路：一种是采用随机森林的方法，即bagging思想；另一种就是XGBoost方法，boosting思想。XGBoost可以认为是GBDT的改进和升级，其算法思路相似，实现过程不同，本篇我会以XGB的总结为主，并点出XGBoost与GBDT的不同。集成学习1——XGBoost集成学习2——XGBoost本身的特点，及XGB与GBDT

2020-06-19 14:45:53 930

原创循环神经网络RNN 3——LSTM及其变体

LSTM（Long Short Term Memory networks）被称为长短期记忆模型，是一种比较特殊的循环神经网络，其基本结构和基本思路与RNN一样。关于模型，我们都知道LSTM有解决长依赖问题的能力，这是区别于普通RNN的地方。本篇将总结LSTM及其相关变体。目录1，LSTM概述2，剖析LSTM2.1 细胞状态2.2 忘记信息2.3 添加信息2.4 更新细胞状态2.5 输出细胞状态3 LSTM反向传播4 LSTM注意事项5 LSTM变体5.1 peephole connections5.2

2020-06-16 18:50:16 1724

原创循环神经网络RNN 2—— attention注意力机制（附代码）

attention方法是一种注意力机制，很明显，是为了模仿人的观察和思维方式，将注意力集中到关键信息上，虽然还没有像人一样，完全忽略到不重要的信息，但是其效果毋庸置疑，本篇我们来总结注意力机制的不同方法。目录1，attention的定义2，基础的attention3, attention变体3.1，针对attention向量计算方式的变体3.1.1 Soft-attention3.1.2 Hard attention3.1.3 Local attention3.2, 针对attention score计

2020-06-15 19:17:58 7417 1

原创循环神经网络RNN 1—— 基本模型及其变体

RNN是非常重要的神经网络结构，直接将数据处理提高了一个维度，在序列数据建模方面效果非常好，广泛应用于语音、视频、文本等领域，本篇将从模型结构上对RNN进行总结。（文末有相关的参考资料连接，有兴趣的可以进一步拓展。）目录1，RNN的基本结构1.1，单层网络1.2，经典的RNN结构（N vs N）2、RNN变体2.1 N vs 1 模型2.2， 1 vs N 模型2.3、N vs N模型1，RNN的基本结构RNN结构是从基本的神经网络变换而来的，加入了时间维度，可以很方便的处理序列数据。1.1，单

2020-06-15 17:53:39 1634

原创 Word2vector

Word2vector可以说是nlp的基石，但是其思想不仅仅局限在nlp，比如广告推荐中id的embedding也可以应用，本篇就来梳理一下w2v的思想。目录1，基本思想2，counting3，Skip-gram（Continuous Skip-gram Model）3.1 数据处理3.2 网络结构3.3 Skip-gram的改进4，CBOW（Continuous Bag-of-Words Model）5，总结1，基本思想Word2vector（简称w2v），字面上理解就是“词”转化为“向量”，或者

2020-06-01 17:58:54 770 1

原创 LDA主题模型2——文本建模与Gibbs采样求解

相信很多人第一次看到LDA算法都会头大，不管是看论文还是看博客，都少不了各种各样的公式和理论，概率分布、共轭分布、贝叶斯公式、Gibbs采样等等，一大堆耳熟又陌生的词，经常带着一大堆问号去学习，又带着一大堆问号离开。。。本篇文章将会一点点的将其攻克。...

2020-05-07 23:15:13 1070 2

原创 LDA主题模型1——数学基础

相信很多人第一次看到LDA算法都会先皱眉头，不管是看论文还是看博客，都少不了各种各样的公式和理论，概率分布、共轭分布、贝叶斯公式、Gibbs采样等等，一大堆耳熟又陌生的词，经常带着一大堆问号去学习，又带着一大堆问号离开。。。本篇文章将会一点点的将其攻克。LDA的数学基础有很多，最主要的两个是共轭分布的概念与Gibbs采样的概念。关于Gibbs采样，我有专门的文章对其总结，从问题到原理到案例，有...

2020-04-27 11:30:28 408

原创 MCMC详解1——蒙特卡洛方法

MCMC是一种随机采样方法，用来处理一些复杂运算的近似求解。在HMM、LDA等模型中都有重要应用。目录1，蒙特卡洛方法2，拒绝-接受采样MCMC（ Markov Chain Monte Carlo）马尔科夫蒙特卡洛方法，从名称上包含蒙特卡洛方法与马尔科夫链两部分，本文先总结蒙特卡洛方法。1，蒙特卡洛方法最早的蒙特卡洛方法都是为了求解一些不太好求解的求和或者积分问题。θ=∫abf(x)...

2020-04-22 23:30:59 2267

原创概率分布、概率密度、概率分布函数、概率密度函数

今天突然看到概率分布、概率密度函数等概念，有点懵，赶紧复习以下。理解相关概念首先要区分的是变量类型，离散变量与连续变量，不同的变量对应不同的概率描述方法，我们分开来看。离散变量概率分布、概率密度是针对离散型变量而言的。概率分布：列出所有变量X的取值以及对应的概率，一个也不能少。比如：Xx1x_1x1x2x_2x2…xnx_nxn…pip_ipip1...

2020-04-21 21:47:01 6301

原创推荐系统11——《推荐系统实践》总结

在之前我也看了很多人写的推荐系统的博客，理论的、算法的都有，多是个人的理解和感悟，虽然很深刻，但是对于自己而言还是不成系统，于是我参考大牛项亮编著的《推荐系统实践》将该领域知识系统整理一遍，与大家一起学习。本系列对应的代码请查看https://github.com/wangyuyunmu/Recommended-system-practice前面总结推荐系统常用的数据、算法、架构等，具体内容清...

2020-04-20 21:07:04 634

原创推荐系统10——评分预测问题

在之前我也看了很多人写的推荐系统的博客，理论的、算法的都有，多是个人的理解和感悟，虽然很深刻，但是对于自己而言还是不成系统，于是我参考大牛项亮编著的《推荐系统实践》将该领域知识系统整理一遍，与大家一起学习。本系列对应的代码请查看https://github.com/wangyuyunmu/Recommended-system-practice前面总结推荐系统常用的数据、算法、架构，但是都是在讨...

2020-04-17 23:36:40 3734 1

原创推荐系统9——推荐系统实例架构

在之前我也看了很多人写的推荐系统的博客，理论的、算法的都有，多是个人的理解和感悟，虽然很深刻，但是对于自己而言还是不成系统，于是我参考大牛项亮编著的《推荐系统实践》将该领域知识系统整理一遍，与大家一起学习。本系列对应的代码请查看https://github.com/wangyuyunmu/Recommended-system-practice前面总结了:1）基于用户行为数据的推荐方法——协同...

2020-04-15 21:53:26 1238

原创推荐系统8——利用社交网络数据推荐

在之前我也看了很多人写的推荐系统的博客，理论的、算法的都有，多是个人的理解和感悟，虽然很深刻，但是对于自己而言还是不成系统，于是我参考大牛项亮编著的《推荐系统实践》将该领域知识系统整理一遍，与大家一起学习。本系列对应的代码请查看https://github.com/wangyuyunmu/Recommended-system-practice前面总结了:1）基于用户行为数据的推荐方法——协同...

2020-04-15 21:13:53 3353

原创推荐系统7——利用上下文信息进行推荐

在之前我也看了很多人写的推荐系统的博客，理论的、算法的都有，多是个人的理解和感悟，虽然很深刻，但是对于自己而言还是不成系统，于是我参考大牛项亮编著的《推荐系统实践》将该领域知识系统整理一遍，与大家一起学习。本系列对应的代码请查看https://github.com/wangyuyunmu/Recommended-system-practice前面总结了:基于用户行为数据的推荐方法——协同过滤...

2020-04-14 22:12:34 2146

原创推荐系统6——基于标签的推荐方法

在之前我也看了很多人写的推荐系统的博客，理论的、算法的都有，多是个人的理解和感悟，虽然很深刻，但是对于自己而言还是不成系统，于是我参考大牛项亮编著的《推荐系统实践》将该领域知识系统整理一遍，与大家一起学习。本系列对应的代码请查看https://github.com/wangyuyunmu/Recommended-system-practice前面三篇总结了基于用户行为数据的推荐方法——协同过滤...

2020-04-12 21:59:36 7131

原创推荐系统5——冷启动

在之前我也看了很多人写的推荐系统的博客，理论的、算法的都有，多是个人的理解和感悟，虽然很深刻，但是对于自己而言还是不成系统，于是我参考大牛项亮编著的《推荐系统实践》将该领域知识系统整理一遍，与大家一起学习。本系列对应的代码请查看https://github.com/wangyuyunmu/Recommended-system-practice前面三篇总结了基于用户行为数据的推荐方法——协同过滤...

2020-04-10 23:18:32 679

原创推荐系统4——图模型（PersonalRank）

在之前我也看了很多人写的推荐系统的博客，理论的、算法的都有，多是个人的理解和感悟，虽然很深刻，但是对于自己而言还是不成系统，于是我参考大牛项亮编著的《推荐系统实践》将该领域知识系统整理一遍，与大家一起学习。本系列对应的代码请查看https://github.com/wangyuyunmu/Recommended-system-practice上一篇总结了基于用户行为数据的推荐方法——隐语义，本...

2020-04-09 22:55:45 1897 1

原创推荐系统3——隐语义分析（LFM）

在之前我也看了很多人写的推荐系统的博客，理论的、算法的都有，多是个人的理解和感悟，虽然很深刻，但是对于自己而言还是不成系统，于是我参考大牛项亮编著的《推荐系统实践》将该领域知识系统整理一遍，与大家一起学习。本系列对应的代码请查看[https://github.com/wangyuyunmu/Recommended-system-practice](https://github.com/wangyuyunmu/Recommended-system-practice)上一篇总结了基于用户行为数据的推荐方法—

2020-04-08 23:25:40 779

learning tensorflow ——2017.pdf

空空如也