
推荐技术&&广告技术
推荐&&广告&&机器学习
coder andy
腾讯研发高工,致力于前沿技术的研究,大规模互联网后台架构、大规模金融中后台架构、支付与证券中后台架构、云paas、iaas架构、下一代网络技术、云网络技术、网络模拟技术、网络安全技术、虚拟化技术等技术、区块链技术、大模型技术等等。
展开
-
dsp基础算法
【小编】发现好文一篇,让大家对DSP中的基础算法和模型有一个初步的了解。(转载请保留原文链接 http://www.techinads.com/archives/41authored by 江申_Johnson)美国有一家很优秀的DSP公司–M6D(m6d.com),这个公司只是个startup公司,却已经在KDD之类的顶级会议发表的7-8篇优秀的文章。最近我研究了一下他们的D转载 2016-12-29 01:08:56 · 14837 阅读 · 1 评论 -
一个关于广告的笑话
这是一套广告竞价系统的俩个大模块,还有两个,一个是SSP,一个是AdExchange。想要做的事情就是以拍卖的形式卖展现机会。ssp跟adExchange说,我这有一次广告展现机会。adExchange跟所有dsp说,我这有一个广告展现机会。dmp说,这个广告要展现的用户是谁,男的女的,哪人,以前都干过啥,买过啥dsp1说,我出1快dsp2说,我出5毛adExchang转载 2016-10-27 15:39:34 · 777 阅读 · 0 评论 -
掀起“红盖头”:揭开真正意义的DSP神秘面纱
转载:http://www.ipinyou.com.cn/UI/technicalnews/201203/dsp_0.html当前,你要问中国网络广告领域里最热门的话题是什么?一定会有人告诉你,DSP绝对属于热点之一。DSP在中国掀起的热潮似乎正愈演愈烈,国内许多广告公司都宣称自己拥有先进的DSP,整个互联网广告领域也都在争相谈论DSP,DSP一词俨然已成为中国网络广告业最受热捧的词汇转载 2016-10-09 14:23:07 · 652 阅读 · 0 评论 -
cookie mapping
首先通过一些关键词解释普及或者回顾一下背景,ADX:Ad exchange的简称。一般特指Ad exchange平台模块 DMP:Data Management Platform的简称。DMP存储了流量、受众的各种特征信息。 DSP:Demand Side Platform的简称。可以看做流量的购买方,为广告主服务。广告主可以通过DSP购买流量,达到营销的目的。DSP可以接入ad转载 2017-01-15 18:28:46 · 784 阅读 · 0 评论 -
广告计算中的AUC和ROC曲线
AUC的英文全称为 Area Under Curve,AUC的意思是曲线下面积,在计算广告学中,AUC经常用于统计ROC曲线的面积,用来量化评估广告的CTR质量。这里再解释一下ROC的含义,ROC全称为:Receiver Operating Characteristics (ROC) graphs ROC经常被用于模式识别、分类器的结果展现和性能评测。传统的ROC曲线多用于医学检测领域,2000年转载 2016-12-14 15:00:23 · 1402 阅读 · 0 评论 -
r进行crt预估
2013-1-25逻辑回归可以用在CTR(Click Through Rate)预估上,即通常所说的点击率预估。点击率预估的意义在于,搜索引擎等广告平台想要赚更多的钱,就要通过某一种机制让赚钱最多的广告排在前面(或有更多的概率被展示)。一、排序规则为了获得更多的收益,一般搜索引擎、广告联盟的排序规则是:rankScore=CTR∗bidPrice其中bi转载 2016-10-20 23:49:33 · 939 阅读 · 0 评论 -
种子用户
“种子用户可以凭借自己的影响力,能吸引更多目标用户,是有利于培养产品氛围的第一批用户。要理解种子用户,需要明确以下几点!” 首先,种子用户不等于初始用户 种子用户要有选择标准。尽量选择影响力高的,活跃度高的用户作为产品使用者。 否则,即使引进了再多,也无助于目标用户数量的扩散,相反,有可能因为产品和用户不对路,造成好不容易引进的用户又大量流失了,还会给产品开发者造成错转载 2017-03-13 23:10:26 · 434 阅读 · 0 评论 -
广告学中的特征工程
转自:http://blog.youkuaiyun.com/mytestmy/article/details/40933235 描述完系统,模型等方面,就到了花费互联网广告算法工程师的最大精力的点了,就是特征工程,这是一个持久战斗的点。流程复杂,而且各种机器学习的方法都可以在这里用上,有效果,有产出,有指标。当然,玩砸的也不少,打击总是很多的。前面那么多的工作,都可以在系统搭建完成后,变转载 2016-10-09 15:06:05 · 653 阅读 · 0 评论 -
pdb
作者:吴俊链接:https://zhuanlan.zhihu.com/p/23013433来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。近来有很多同学询问在PDB项目中通过接口回给媒体的广告会被展示么?可能有些同学在项目执行中发现好像回给媒体的广告并不是所有都被展示。这是为什么呢?以及对于OTV、PC、移动端、移动端信息流等等不同的点位是不是各有转载 2016-12-28 18:01:30 · 3431 阅读 · 0 评论 -
广告相关行业平台
1、广告交易平台:一个开放的、能够将出版商和广告商联系在一起的在线广告市场(类似于证券交易所)。交易平台里的广告存货并不一定都是溢价库存,只要出版商想要提供的,都可以在里面找到。2、广告网络:一个封闭的网络广告市场,网络业主作为中间环节先向出版商采购广告库存,然后再转售给买家,虽然有时候出版商也可以创建自己的广告网络。3、供应方平台(SSP):供应方平台能够让出版商也介入广告交易,原创 2016-10-09 14:17:01 · 744 阅读 · 0 评论 -
广告竞价策略:GFP,GSP,VCG
一分钟读懂互联网广告竞价策略GFP+GSP+VCG两个广告位,三家广告主竞价,广告平台究竟应该制定广告竞价策略呢?这是本文即将分享的一个问题。一、前序知识-传统竞价策略英式拍卖(English Auction)英式拍卖又叫公开增价拍卖OAB(Open Ascending Bid),卖家提供物品,在物品拍卖过程中,买家按照竞价阶梯由低至高喊价,出价最高者成为竞买的赢家。为了保转载 2016-12-28 20:58:06 · 11523 阅读 · 1 评论 -
基于大数据量的视频推荐策略
构建视频的标签体系和词典画像:对kafka的video事件构建标签体系存入redis;利用video日志中的文本信息生成词典画像,涉及Word2vect产出词之间的相似度做聚类,避免了kmeans无语义的缺陷;构建用户画像:用videoId对kafka的videoEvent日志和redis中的视频标签体系进行join,产出用户画像(deviceId,word,weight),weigh原创 2017-06-10 17:11:34 · 1679 阅读 · 0 评论 -
ansj的分词系统过滤词性
最近做nlp,需要词性,特地查了下保留下i下来汉语文本词性标注标记集# 1. 名词 (1个一类,7个二类,5个三类)名词分为以下子类:n 名词nr 人名nr1 汉语姓氏nr2 汉语名字nrj 日语人名nrf 音译人名ns 地名nsf 音译地名nt 机构团体名nz 其它专名nl 名词性惯用语ng 名词性语素nw 新词# 2.转载 2017-05-29 18:44:59 · 2904 阅读 · 1 评论 -
recommandation of sohu
摘要:对一个媒体网站来讲,一个比较重要的任务就是获取用户对于不同类型文章的兴趣分布。用户的兴趣分布会被作为用户属性标签,和其他类型的标签(例如人口属性等)一起用作推荐的模型特征。李滔,中国科技大学博士毕业,现供职于搜狐大数据中心用户推荐部,从事推荐和广告算法研发工作。主要关注技术方向包括广告技术、并行计算、大数据分析等。 李滔曾就职于理光北京研究所以及Teradata公司。在理光期间设计了转载 2017-03-24 14:07:24 · 519 阅读 · 0 评论 -
ALS原理
推荐系统中添加用户评分偏好:假设现在要预测june对the fox的评分值,假设所有歌曲的平均分是3.7分而且the fox比一般神曲更好,所以the fox高于平均值假设为0.5分我们假设june是一个非常严格的评分者,他评的分普遍低于平均分0.3分所以june对the fox的评分制应该3.7+0.5-0.3分1,用户隐式反馈包含purchase browsed w原创 2017-02-22 16:27:55 · 1305 阅读 · 0 评论 -
通过RBM实现协同过滤
1,不同的用户使用不同的RBM2,每个RBM的可见层代表用户对项目(music)的评分,假设有n收歌曲,那么就用n个softmax单元构造RBM的可见层3,softmax主要用来对评分建模,每个softmax包含k个二元单元,第i个二元单元当且只当用户对该电影打分为i时才会设置为1同时把用户行为作为特征加入隐藏层中。原创 2017-02-22 01:53:24 · 1210 阅读 · 0 评论 -
可交替的最小二乘法(ALS-WR)
为什么要在推荐系统中用隐式因子分解-隐语义模型?因为在实际项目中,我们的用户很多项目都是没有评分的,并且很多情况下评分值都是缺失的。或者很稀疏。那么我们分解为用户因子矩阵和项目因子矩阵,然后在低维空间进行计算,这样的话数据会更加稠密。然后反过来我们来预测缺失值,这就是目的。在这里为什么不用随机梯度下降而是用ALS首先在实际项目中,显示反馈是比较少的,那么我们就需要隐式反馈第二点原创 2017-02-22 01:36:10 · 1879 阅读 · 1 评论 -
隐式因子分解-隐语义模型
用户对项目的评分矩阵,可以转化为一个用户因子矩阵和项目因子矩阵分解时,中间是有一个特征数量d的。比如我们把我们的项目定义为更适合男性观看还是女性观看这样的特征。同样我们的用户也是分为男性跟女性的。又比如说我们的电影是分为喜剧,恐怖片等。而我们的用户又可以分为喜欢喜剧还是恐怖片等,这些都可以作为因子。然后用用户因子矩阵点乘项目因子矩阵,就可以逼近我们的评分矩阵。用原创 2017-02-22 01:18:14 · 2154 阅读 · 0 评论 -
基于KNN的物品相似度的评分预测
在前提条件我们是基于item的cf的条件下,除了上篇所说的方式来计算相似度还可以基于knn来计算物品的相似度基于knn的物品相似度的评分预测也是非常常见的一种推荐技术。也就是说,我们假设用户1对项目1打分有可能是5,4,3,2分,那么我们就统计其他用户对项目1的打分,打5分的多少,打4分的多少,直到把所有离散值都穷举到。当然无论用户1的邻居好友打多少分,这些好友和用户1都有一个相似原创 2017-02-22 01:01:45 · 4144 阅读 · 0 评论 -
基于项目的协同过滤
基于物品的协同过滤更受欢迎历史原因:基于邻居的协同过滤是早期推荐系统的主流。现实原因:比如亚马逊的电商系统,用户数是指数增长的,而物品(图书)数量是线性增长的。所以说item是相对稳定的。而用户数是不稳定的。这样,我们就能很好的计算项目之间的相似度,不用频繁的计算用户之间的相似度。所以用户的增长对我们项目的影响不是很大,因为我们的项目还是由用户进行表示的。我们新来的用户并不需要急着原创 2017-02-22 00:30:17 · 3700 阅读 · 0 评论 -
最近邻居推荐系统原理和基于用户的评分预测推荐
最近邻居推荐是最直观的一种推荐,也就是基于用户的协同过滤和基于物品的协同过滤:根据用户的历史行为推荐给另外的用户,也就是看物品之间的相似度,那么就是基于物品的协同过滤评分可以是显示给的,也可以是隐示,也可以是很多特征考虑之后打的分在评分预测中,有两个问题1,比如june用户有缺失值,那么怎么获取最近邻居,也就是topN的邻居,这里涉及相似度计算2,怎么预测(一:原创 2017-02-21 23:58:11 · 5270 阅读 · 0 评论 -
计算广告方式
计算广告几种方式:旗帜广告EDM手机短信群发以上是以前的方式未来广告的趋势:只要做到精准,广告就不再是广告精准定位受众可以量化地准确评测效果搜索引擎关键字推广利用社交网络推荐系统推荐系统的核心思想是集体智慧:应用场景1:维基百科应用场景2:google page rank应用场景3:亚马逊的推荐系统原创 2016-10-07 01:03:17 · 678 阅读 · 0 评论 -
nltk学习
nltk是一个Python工具包, 用来处理和自然语言处理相关的东西. 包括分词(tokenize), 词性标注(POS), 文本分类, 等等现成的工具.1. nltk的安装资料1.1: 黄聪:Python+NLTK自然语言处理学习(一):环境搭建 http://www.cnblogs.com/huangcong/archive/2011/08/29/2157437.html 这个图转载 2017-04-11 14:09:05 · 1586 阅读 · 0 评论 -
计算语言学学习总结
内容来自中科院刘群研究员计算语言学PPT的整理笔;一、概述;1.应用;机器翻译(MT);信息检索(IR);自动问答(QA);自动文摘(AU,automaticsummary;信息抽取(IE);信息过滤(IF);2.特点;2.1定义:计算语言学是一门以计算为手段对自然语;语言的层次划分:从底层到上层,词法->句法;2.2歧义现象;词法层歧义:i)词性兼类一、概述1. 应用转载 2016-12-23 00:52:39 · 3452 阅读 · 0 评论 -
词汇化剖析与概率剖析(1)
概率剖析器的一个重要作用是他能够进行歧义消解,我们知道句子是有很多歧义的。那么怎么消歧,概率语法可以给我们提供对这个问题的解决办法:从歧义中选择最大概率的解释。由于歧义非常普遍,因此概率剖析器在大多数剖析或自然语言理解的工作中起着非常重要的作用。概率语法很重要的应用就是语音识别,他对预测将要来临的单词有很大作用,同时这也是符合心里学的。把句法的复杂结构模型和概率模型结合起来,是概率剖析领域的一翻译 2016-12-22 00:55:19 · 1073 阅读 · 0 评论 -
计算语言学的五个任务中哪个最重要?
计算语言学中有五个任务:linguistic problem, linguisticformalization, Computational formalism, Programming, Evaluation of how goodcomputers do 。计算语言学是从语言学的角度出发,是语言学的一个分支,该学科的目的就是提出一种可被计算机处理的语言理论,框架,模型。原创 2016-12-21 22:10:32 · 2018 阅读 · 2 评论 -
文本特征提取
文本挖掘模型结构示意图1. 分词分词实例: 提高人民生活水平:提高、高人、人民、民生、生活、活水、水平分词基本方法: 最大匹配法、最大概率法分词、最短路径分词方法1.1 最大匹配法 中文分词在中文信息处理中是最最基础的,无论机器翻译亦或信息检索还是其他相关应用,如果涉及中文,都离不开中文分词,因此中文分词具有极高的转载 2016-12-19 17:16:20 · 1016 阅读 · 0 评论 -
文档表示
要使得计算机能高效的处理真实文本,就必须找到一种理想的形式化表示方法,这种表示一方面能真实的反映文档内容(主题、领域或结构等),另一方面也要有对不同文档的区分能力。 目前文本表示通常采用向量空间模型(vector space model, VSM) 。VSM是20世纪60年代末期由G. Salton等人提出的,是当前自然语言处理中常用的主流模型。 下面首先给出VSM转载 2016-12-19 16:59:55 · 1323 阅读 · 0 评论 -
CRF
CRF简介ConditionalRandomField:条件随机场,一种机器学习技术(模型)CRF由John Lafferty最早用于NLP技术领域,其在NLP技术领域中主要用于文本标注,并有多种应用场景,例如:分词(标注字的词位信息,由字构词)词性标注(标注分词的词性,例如:名词,动词,助词)命名实体识别(识别人名,地名,机构名,商品名等具有一定内在规律的实体名词转载 2016-12-19 16:49:33 · 5665 阅读 · 0 评论 -
利用word2vec对关键词聚类
利用word2vec对关键词进行聚类package com.purelearning;import love.cq.util.IOUtil;import org.ansj.domain.Term;import org.ansj.splitWord.analysis.ToAnalysis;import java.io.BufferedReader;import java.io.I转载 2016-10-17 03:10:13 · 3016 阅读 · 1 评论 -
利用ANSJ进行文本关键词提取
之前已经提到过使用FudanNLP进行新闻关键词提取,无奈组长不满意于是换成了ictclas,在我的ubuntu13.04上面ictclas跑得很好,可惜到别人的机器上就报错,没办法,只好再一次换工具,经过晓阳童鞋推荐,这次换成了ANSJ,据说这个工具就是早先ictclas的JAVA版本。这个工具的Github地址是这里:https://github.com/ansjsun/ansj_seg转载 2016-10-17 02:16:20 · 4894 阅读 · 3 评论 -
tf-idf小结
TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级。除了TF-IDF以外,因特网上的搜索引擎还会使用基于链接分析的评级方法,以确定文件在搜寻结果中出现的顺序。TF转载 2016-10-17 00:45:54 · 382 阅读 · 0 评论 -
关键词抽取小结
关键词提取就是从文本里面把跟这篇文章意义最相关的一些词抽取出来。这个可以追溯到文献检索初期,当时还不支持全文搜索的时候,关键词就可以作为搜索这篇论文的词语。因此,目前依然可以在论文中看到关键词这一项。除了这些以外,关键词还可以在文本聚类、分类、摘要等领域中有着重要的作用。比如在聚类时将关键词相似的几篇文章看成一个类团可以大大提高K-means聚类的收敛速度。从某天所有新闻中提取出这些新闻的转载 2016-10-17 00:35:03 · 3848 阅读 · 0 评论 -
中文分词小总结
首先什么是中文分词stop word? 英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思。例如,英文句子I am a student,用中文则为:“我是一个学生”。计算机可以很简单通过空格知道student是一个单词,但是不能很容易明白“学”、“生”两个字合起来才表示一个词。把中文的汉字序列切分成有意义的词,就是中文分词,有些人也称为转载 2016-10-17 00:16:20 · 630 阅读 · 0 评论 -
计算语言学基础概论
语言:自然语言--人类进化过程中产生,人来生来就可自然习得计算:面向特定目标,(利用计算机)(按照某种方式)进行从输入到输出的变换面向特定目标,利用计算机按某种方式(算法)对语言输入进行变换的科学nlp的关键问题:n判断是作为汉语的声音:语音层n运用了汉语中的那些词组成:词汇层n这些汉语词如何构成一个句子:句法层n由这些词这样组成的句子的意义:语义层n作者想原创 2016-09-21 17:25:53 · 641 阅读 · 0 评论 -
Madlib上关联规则的探讨
from zengxiaosenApriori algorithm是关联规则里一项基本算法。是由Rakesh Agrawal和Ramakrishnan Srikant两位博士在1994年提出的关联规则挖掘算法。关联规则的目的就是在一个数据集中找出项与项之间的关系,也被称为购物蓝分析 (Market Basket analysis),因为“购物蓝分析”很贴切的表达了适用该算法情景中的一个子集。原创 2016-09-21 17:35:36 · 1286 阅读 · 0 评论 -
有关MLlib的协同过滤算法探讨
1,协同过滤算法的出现标志着推荐系统的产生,协同过滤算法包含基于用户的协同过滤算法和基于物品的协同过滤算法。在探究推荐算法之前谈下向量之间的相似度,度量向量之间相似度的方法很多,可以用距离(各种距离)的倒数,向量夹角,Pearson相关系数等。其中皮尔森相关系数的计算公式如下:ρX,Y=cov(X,Y)/σxσy=E((X−μx)(Y−μy))/σxσy分子是协方差,分母是两个变量原创 2016-09-21 17:36:31 · 527 阅读 · 0 评论 -
MLlib的关联算法FPgrowth(与APriori比较)
1,频繁项集挖掘是一个关联式规则挖掘问题。关联挖掘是数据挖掘中研究最早也是最活跃的领域,其中频繁模式的挖掘是关联挖掘的核心和基础,是产生关联规则挖掘的基础。频繁项集最经典的应用就是超市的购物篮分析。2,频繁项:在多个集合中,频繁出现的元素项。频繁项集:在一系列集合中每项都含有某些相同的元素,这些元素形成一个子集,满足一定阀值就是频繁项集。K项集:K个频繁项组成的一个集合。支原创 2016-09-21 17:37:36 · 4692 阅读 · 0 评论 -
Madlib上的K-means算法分析及实现
1,基本Kmeans算法的步骤:选择K个点作为初始质心,然后循环{将每个点指派到最近的质心形成K个簇,重新计算每个簇的质心}直到簇不发生变化或达到最大迭代次数时间复杂度:O(tKmn),其中,t为迭代次数,K为簇的数目,m为记录数,n为维数空间复杂度:O((m+K)n),其中,K为簇的数目,m为记录数,n为维数2,K如何确定:kmeans 首先选择K个初始质心,其中K是原创 2016-09-21 17:38:49 · 1961 阅读 · 0 评论 -
GBDT构造新模型
实际问题中,可直接用于机器学习模型的特征往往并不多。能否从“混乱”的原始log中挖掘到有用的特征,将会决定机器学习模型效果的好坏。引用下面一句流行的话:特征决定了所有算法效果的上限,而不同的算法只是离这个上限的距离不同而已。本文中我将介绍Facebook最近发表的利用GBDT模型构造新特征的方法1。论文的思想很简单,就是先用已有特征训练GBDT模型,然后利用GBDT转载 2016-12-30 19:58:52 · 764 阅读 · 1 评论