- 博客(34)
- 资源 (15)
- 收藏
- 关注
原创 tf.feature_columns api
tf.feature_columns api对官方的api进行了下简单的整理,方便一次性看,内容基本都是搬自tensorflow的官方api,大家可以到tensorflow官方api上查看更加详细的内容。tensorflow的特征处理apitensorflow提供了feature_columns api来处理特征,基本上涵盖了我们所有使用到的特征类别,下面一一简单列举。Bucketized...
2019-10-19 16:06:50
824
原创 ctr预估中的评估指标及校准
ctr预估中的评估指标及校准背景最近在实际的工作中发现离线指标与线上指标并非线性吻合关系,因此对离线指标的评估产生了一些思索,因此这里复盘一下ctr预估中的常用评估指标,并附上自己的思考。为什么要做ctr预估?对于常见的推荐问题而言,并不是太关注模型输出概率的绝对值大小而更关注的相对大小,即排序。广告等ctr预估模型中,由于最终的排序还要乘以bid,因此对于ctr的准确度要求非常高,举...
2019-10-10 00:53:51
15826
7
原创 推荐系列论文九-Deep Image Ctr Model
[DICM]Image Matters: Visually modeling user behaviors using Advanced Model Server论文地址前言最近工作都比较忙,一直没更新,刚好最近在做图像特征提取方面的工作,就刚好更新一下一篇阿里发表的利用图像对用户进行视觉特征建模的文章,感觉文中价值最多的内容主要是AMS块的内容,不过本文主要说一下对图像提取的部分内容,思路...
2019-09-28 21:45:28
608
原创 推荐系列论文八-ESMM-完整空间下的多任务学习
ESMM-Entire Space Multi-Task Model: An Effective Approach for Estimating Post-Click Conversion Rate论文地址前言这次带来阿里妈妈团队于18年发表在SIGIR的一篇多任务学习的文章,主要基于多任务学习的思想对CVR问题进行优化预估。背景首先说一下广告收费的形式,包括多种:cpt的广告按...
2019-08-23 00:18:44
2309
原创 Word2vec-tensorflow版实现
Word2vec-tf版实现word2vec思想cbow的核心思想是利用上下文单词预测当前单词,skip-gram的核心思想是利用当前中心词预测上下文,HS的核心思想是为每个单词构建一棵huffman树,树上每个节点都拥有对应的隐向量,从而根据路径来计算单词的概率,NG的核心思想是每个单词都对应一个隐向量,然后进行负采样从而构建正负样本来进行预测。skip-gram这里主要说一下skip-...
2019-08-15 22:55:33
558
原创 推荐系列论文七-FNN与实践
Deep Learning over Multi-field Categorical Data – A Case Study on User Response Prediction论文地址前言该篇论文于2016年发表,提出了基于FM预训练获取离散特征embedding表示,结合DNN来进行CTR的预估,因为思想比较简洁,放在2019年来看已经不算特别新奇了,因此简单地过一下论文内容,然后再做...
2019-08-11 22:56:43
1909
原创 推荐系列论文六:Wide & Deep Learning for Recommender Systems
论文地址Wide & Deep Learning for Recommender Systems前言上一篇更新了DCN,觉得还是有必要更新一下Wide&Deep,毕竟这是许多企业实际落地使用的算法(可能不少使用的是DeepFM,但是思想都是一致的),这篇就给了google2016年发表的Wide&Deep,下面来看一下Wide&Deep的主要内容与思想。Ab...
2019-07-05 00:17:11
497
原创 推荐系列论文五:Deep & Cross Network for Ad Click Predictions
论文地址Deep & Cross Network for Ad Click Predictions前言这次分享一下来自Standford和google联合发表的Deep&Cross Network,该篇文章主要工作是提出了Cross的结构来进行高阶的特征组合并且引入线性时间复杂度,模型的结构与Wide&Deep类似,不同的地方主要在于在Wide&Deep中,W...
2019-07-04 00:18:33
624
5
原创 推荐系列论文四:Real-time Personalization using Embeddings for Search Ranking at Airbnb(下)
前言在上篇里介绍了这篇论文中对于listing的Embedding方式,通过对于objective的调整使得Embedding结果更加符合Airbnb的场景,从而将Embedding用于相似推荐以及提高搜索性能。上述的Embedding主要针对用户的短时兴趣,因为利用的是用户的click session形成的序列,这种Embedding均是基于用户短时偏好的连续性并且借助总体的用户群来对每个l...
2019-06-24 01:09:11
480
原创 AUC到底是什么?
前言上一篇单值AUC计算优化里,提到了AUC,AUC的全名是Area Under Curve,就是ROC曲线下的面积,上一篇文中提到了AUC是评估模型整体排序能力的,但是具体是什么没有进行展开介绍,考虑到可能很多人对这么个玩意都不是那么理解,因为网上大部分都是从ROC怎么画,AUC怎么算,AUC代表什么,但是为什么代表这些含义却都没有提到,所以这次就专门写了一篇来介绍什么是AUC。ROC首先...
2019-06-21 00:52:55
43809
4
原创 推荐系列论文四:Real-time Personalization using Embeddings for Search Ranking at Airbnb(上)
Real-time Personalization using Embeddings for Search Ranking at Airbnb前言这篇论文是KDD2018的best paper,来自Airbnb在搜索排序中利用Embedding进行实时个性化推荐的实践应用,和之前的Embedding一样均是以word2vec为基础技术(w2v大法好),但是这次Airbnb在实践中根据自己的业务...
2019-06-20 02:01:46
889
原创 单值AUC的计算优化
单值AUCAUC主要用于评估当前模型的排序能力,假设一共有m条正样本和n条负样本,模型为model,那么通过model可以对其中每一条记录进行预测并获得概率值。对于m条正样本和n条负样本,一共可以有mn中二元组合方式,每个二元组包括一条正样本和一条负样本,对所有的二元组使用model进行预测,倘若正样本的概率值大于负样本则加1,统计所有的和,将该和除以mn就是AUC值。这种说法并不那么的...
2019-06-19 22:56:14
5391
原创 推荐系列论文三:Word2vec
前言前面提到过在Embedding这块,绕不开的就是Word2vec,今天就简单为大家介绍一下Word2vec,现在网络上有许多写的很多的介绍Word2vec的文章,因此本文也主要是引用这些文章来对Word2vec进行介绍(主要是懒),参考的内容见文末。什么是Word2vec?Word2vec由来自google的Mikolov于2013年发表的《Efficient estimation o...
2019-06-18 00:42:23
4468
原创 推荐系列论文二:Deep Walk
DeepWalk: Online Learning of Social Representations本系列分享论文的第二篇是DeepWalk,下面从头开始一起读一下这篇论文。什么是DeepWalk?用论文中的话来说:“DeepWalk takes a graph as input and produces a latent representation as an output.”。也就...
2019-06-14 00:29:20
2219
原创 推荐系列论文一:Item2vec
前言之前开了一个CTR预估系列,目前仅更新了一篇FM的文章,想再开一个论文系列,记录一下一些经典的论文在实际中的应用。最近工作在做Embedding相关的一些工作所以开始的几篇主要围绕一些经典的Embedding来做。Embedding第一个问题,什么是Embedding?Embedding中文是嵌入,最重要的作用是将一些离散的特征嵌入到另一个维度空间利用一串向量进行表示,并且...
2019-06-12 23:52:44
2932
原创 CTR预估模型1-FM
前言很久没更新过东西了,想记录一下学习过程,开一个CTR预估的系列,希望可以一直坚持更新吧~FM背景LR的缺点:线性模型无法学习特征间的交互信息特征组合对于实际的效果显著人为进行特征交叉由于用户行为的稀疏导致参数无法有效更新特征组合的有效性举个简单的例子,在预测一个用户是否会对剃须刀感兴趣时,性别男+剃须刀的组合特征相应权重可能更大,意味着二者共同出现时感兴趣的可能性...
2019-05-23 00:22:13
513
原创 在jupyter notebook上引用pyspark
最近都是直接使用pyspark shell或者用pycharm来写spark的代码,但是在处理数据或者看训练结果的时候还是jupyter notebook方便太多太多,但是在jupyter中没办法引入pyspark,导致不太方便,这里记录一下在jupyter notebook引入pyspark的方法。环境:anaconda(推荐所有人都装,非常的方便)python3.6,spark2.0,操作...
2018-06-22 17:31:12
8244
2
原创 使用sklearn进行数据预处理之Binarizer,LabelEncoder,LabelBinarizer,OneHotEncoder
前言数据预处理的过程中经常需要对数据进行数值化等处理,比如将性别男女转换为计算机可以理解的1和0,还有将数值化的1,2,3,4,5按照阈值3转换为0,0,0,1,1等,下面介绍一下sklearn提供的类。Binarizer这个就是根据阈值将数值型转变为二进制型,阈值可以进行设定,另外只能对数值型数据进行处理,且传入的参数必须为2D数组,也就是不能是Series这种类型,shape为...
2018-04-19 19:19:19
13404
3
转载 SVM详细讲解
转自:https://blog.youkuaiyun.com/myarrow/article/details/512619711. 目标 SVM是一个二类分类器,它的目标是找到一个超平面,使用两类数据离超平面越远越好,从而对新的数据分类更准确,即使分类器更加健壮。 支持向量(Support Vetor):就是离分隔超平...
2018-04-15 20:02:51
73838
4
原创 Pandas库中进行DataFrame的合并(pd.merge())和连接(pd.concat())方法
引言如果小伙伴使用过mysql,那么肯定知道mysql有join查询来连接多个表,这在数据处理中有时非常有用,对于强大的Pandas库来说,当然也有这种功能,而且Pandas也提供了将不同的DataFrame进行连接的操作,下面挨个介绍,并会加上实例pd.merge() | pd.join()merge和join方法都可以用于DF的合并,不过有些区别。 先看一下pd.merge(...
2018-04-15 15:24:56
25824
1
原创 pandas库中DataFrame对象的索引方式总结
DataFrame对象有多种比较方便的索引方式,以下一一进行总结DataFrame对象为df1. df[val]这边注意,返回的是DataFrame的副本,而不是视图其中val可以是1. 列名,也就是columns名,可以是单个列或者是由列名组成的列表,如果是单个列名则返回Serie对象,如果是列表则返回DataFrame对象2. 分片,用来进行行切片,比如df[:]...
2018-04-12 19:39:25
6931
原创 决策树特征分裂为何不选择最小化训练误差?
在博客上看到有博主说是因为使用最小化训练误差可能会导致过拟合,所以没有选择,感觉理解的似乎有点问题,这边给出自己的一些理解。1.首先一点,线性回归,逻辑回归等都是要基于最小化训练误差来做,应该是基本所有的分类算法都是要最小化训练误差的,只是损失函数的不同导致选择的目标函数不同的原因,不太会因为可能过拟合而不选择最小化训练误差。2.第二点,决策树的生成是递归生成,并且是贪心地生成的,无法保证...
2018-04-09 15:14:01
2931
1
原创 k折验证中k值对偏差和方差的影响
csdn上看到有个标题党,进去什么都没说,这里给一下k值对偏差和方差的影响。当k值很小时,这里不妨假设为2,那么每次训练集大小为n/2,每次训练的数据量会偏小,那么毫无疑问会导致模型训练的偏差会偏大,方差偏小。当k值很大时,假设为n折,那么每次训练集的大小为n-1,几乎等于原始数据集的大小了,那么很明显更容易学习到样本的原始分布并且很可能过拟合,这种结果将导致模型的偏差偏小,但是方差偏大。...
2018-04-07 22:38:35
3847
5
原创 numpy中stack()的方法的作用
np.stack()np.stack()方法大家肯定经常遇到,但是对于stack()的具体作用可能不一定非常明确,这里结合实例以及官方文档作用解释。Parameters: arrays : sequence of array_likeEach array must have the same shape.axis : int, optionalThe axis in the...
2018-03-31 12:56:12
35961
6
转载 numpy与pandas常用函数
一、常用链接:1.Python官网:https://www.python.org/2.各种库的whl离线安装包:http://www.lfd.uci.edu/~gohlke/pythonlibs/#scikit-learn3.数据分析常用库的离线安装包(pip+wheels)(百度云):http://pan.baidu.com/s/1dEMXbfN 密码:bbs2二、...
2018-03-08 16:42:03
3186
原创 macos下安装pyspider出现ImportError: pycurl错误
错误准确提示为:ImportError: pycurl: libcurl link-time ssl backend (openssl) is different from compile-time ssl backend (none/other) 解决方法如下:pip uninstall pycurlexport PYCURL_SSL_LIBRARY=opensslexport L...
2018-03-04 14:24:06
1183
原创 eclipse中科大镜像地址
在官网上下载时速度过慢,然后也没有跳到选择镜像地址的网页,所以网上找到了中科大镜像的地址,大家可以从这个网址上进行下载 http://mirrors.ustc.edu.cn/eclipse/technology/epp/downloads/release/
2017-11-22 20:55:05
19436
原创 wordcount任务FileInputFormat.addInputPath()要求jobconf与job不匹配问题
这个问题涉及到了新老api的问题,出现这个的问题的同学是因为FileInputFormat导入错误,导入了org.apache.hadoop.mapred中的FileInputFormat类,该类要求jobconf参数,实际上应该导入的是import org.apache.hadoop.mapreduce.lib.input.FileInputFormat这个类,出现该问题的同学可以好好检查一下。...
2017-11-16 20:41:15
2965
原创 什么是数据库的事务?MySql中哪些存储引擎支持事务?
什么是事务?事务由一个或多个sql语句组成一个整体,如果所有的语句执行成功那么修改将会全部生效,如一条sql语句将销量+1,下一条再+1,倘若第二条失败,那么销量将撤销第一条sql语句的+1操作,只有在该事务中所有的语句都执行成功才会将修改加入到数据库中。事务的特性事务具体四大特性,也就是经常说的ACID 1. 原子性(Atomicity) 原子性是指事务包含的所有操作要么全部成功,要么全部
2017-11-15 22:16:58
14617
1
转载 离线安装CM5和CDH5.13完全教程
安装过程较为详细,需要安装的同学可以好好查看—关于CDH和Cloudera ManagerCDH (Cloudera’s Distribution, including Apache Hadoop),是Hadoop众多分支中的一种,由Cloudera维护,基于稳定版本的Apache Hadoop构建,并集成了很多补丁,可直接用于生产环境。Cloudera Manager则是为了便于在集...
2017-11-15 14:43:36
15498
原创 HIVE中LIKE和RLIKE的区别
看书的过程中发现hive有两个用于通配的操作符,LIKE和RLIKE,查了些资料总结一点二者的区别LIKE语法格式为A [NOT] LIKE B,B是sql下的简单正则表达式,也叫通配符模式,如_匹配一个字符,%可以匹配任意多个字符,A会对表达式B做匹配,如果通过返回TRUE,如果不通过则返回FALSE,举个栗子 SELECT name LIKE ‘%Alice’ FROM table1,表示选择
2017-11-09 16:19:45
20442
转载 Hadoop MapReduce中如何处理跨行Block和inputSplit
Hadoop MapReduce中如何处理跨行Block和inputSplit http://www.aboutyun.com/forum.php?mod=viewthread&tid=7704 (出处: about云开发)Hadoop的初学者经常会疑惑这样两个问题: 1.Hadoop的一个Block默认是64M,那么对于一个记录行形式的文本,会不会造成一行记录被分到两个Block当中? 2
2017-11-09 10:03:44
552
原创 hadoop fs,hadoop dfs以及hdfs dfs区别
该文由本人于网上查阅资料所得,如有错误希望帮忙评论指正谢谢。hadoop fs: FS relates to a generic file system which can point to any file systems like local, HDFS etc. So this can be used when you are dealing with different file sys
2017-11-09 09:21:43
23269
1
原创 对信号卷积的理解
信号卷积卷积主要分为离散函数的卷积以及连续函数的卷积,理解其中一种后对另外一个也基本就了解了大致的定义,官方化的定义难以理解,简单地说在信号领域,卷积就是求给定输入以及相应信号后得出的输出信号。我介绍一下自己的理解。主要分为两步:进行卷积的两个信号一个我们称之为输入信号,也就是我们给系统的输入,另一个信号我们称之为响应信号。下一步则是进行卷积,这里我们以连续信号来进行举例说明。倘若输入...
2017-10-19 15:07:01
9442
2
unix操作系统设计
2017-11-07
AndrewNg机器学习笔记
2017-09-11
Andrew Ng机器学习笔记
2017-09-11
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人