
机器学习
poson
搞过图像处理感觉刚入门做搜索引擎只玩过单机版广告技术做了QueryRewrite目前做推荐算法感觉推荐算法和关键词推荐本质上是一样的爱数学爱计算机爱生活
展开
-
搜索引擎算法之查询(Query)
1.Query的数据分析 Query即用户在搜索引擎输入查询条件。在通用搜索引擎中,一般是指输入的关键词。而在各类行业或者垂直搜索引擎,还可以输入类目,如优酷网站中可以选择“电影”、“电视剧”这样的类目。在电子商务网站中,各种产品品牌、型号、款式、价格等也是常见的查询条件。 要分析query中每个term的内容,分词是必不可少的工具。分词算法从最简单的最大正向、最大反向分词算法,...原创 2012-03-13 08:45:53 · 9914 阅读 · 2 评论 -
lbfgs
原创 2012-10-10 09:56:26 · 3249 阅读 · 0 评论 -
《Advances inCollaborative Filtering》读书笔记
yuehuda koren 是yahoo推荐系统方面的大牛。Advances inCollaborative Filtering是他2011年的文章。下面简单介绍一下:大量的人对推荐系统感兴趣,研究机构、企业等大量投入推荐系统的研究和应用。 推荐系统的输入:explicitfeedback:打分;点击向上/向下的大拇指;implicitfeedback:隐式的反馈;购买、浏翻译 2012-10-23 10:48:33 · 1654 阅读 · 0 评论 -
机器学习中的最优化问题
机器学习中的大多数问题可以归结为最优化问题。把一些典型的问题用最优化的方法建立数学模型,再最优化的方式求解。我们再看看数据挖掘和机器学习中哪些是最优化问题,哪些不是。名称是否最优化其他关联规则否支持度和置信度;其实就是联合概率p(x,y)和条件概率p(y|x)。典型的创造概念,但是没有新的东西决策树否取信息增益大的原创 2012-11-18 11:39:10 · 9386 阅读 · 0 评论 -
仔细看几本基础书籍
第一:模式分类第二:PRML第三:统计推断第四:非线性优化第五:数值最优化原创 2013-05-12 21:16:54 · 1627 阅读 · 0 评论 -
twiiter 推荐《WTF: The Who to Follow Service at Twitter》
《WTF: The Who to Follow Service at Twitter》文中介绍的是一个初始版本。第一次提供用户推荐,要求是质量可以,但是上线要快。因此他们搞了一个单机版本。内存很大,144G ram,至今没有用过这么大内存的机器。数据规模:照例讲了一个长尾分布,少数人有1000万follower,25个人有100万的follower。介绍了一下 用不用h原创 2013-06-11 23:24:20 · 2587 阅读 · 0 评论 -
Query Rewrite 相关机器学习人物谱
neel sundaresanhttp://labs.ebay.com/neelsundaresan/neel sundaresan是ebay研究实验室的Sr. Director & Head. 2005年加入ebay。 加入Ebay之前是a startup focused on multi-attribute fuzzy search and network CRM的联合创始人。论文原创 2012-04-13 21:49:54 · 2727 阅读 · 0 评论 -
【PMTK】解决printPmtkFigure找不到的问题
运行代码:s = [0:0.01:1];vol = zeros(length(s),length(d));for i=1:numel(d) dim = d(i); vol(:,i) = s.^(1/dim);endplot(s,vol,'b','linewidth',3);xlabel('Fraction of data in neighborhood'原创 2014-10-10 13:52:33 · 2669 阅读 · 4 评论 -
数据可视化方法
平行坐标可视化方法:公开数据:zoo.tab原创 2014-11-24 09:30:37 · 1587 阅读 · 0 评论 -
欢迎使用优快云-markdown编辑器
Python Image package 安装和冲突想搞一下后向反馈网络,因此找了一下GitHub: https://github.com/petrvacha/Character-recognition-by-neural-network发现用到了图像处理的包:Image。 安装过程:安装之后发现无法运行,发现Image读取的时候始终报错: IOError: cannot identify i原创 2015-07-05 09:32:00 · 1491 阅读 · 0 评论 -
学习Topic Model(主题模型)--Latent Dirichlet Allocation(LDA) 的一些摘要
主题模型是文本挖掘领域非常流行的方法,在文档分类、聚类中都 有大量的应用。实际上,LDA的训练过程很简单,只需要简单的计算就可以得到结果。Blei (2003)原始的LDA论文中使用的是变分法推导,用EM算法求解。方法比较难以理解,并且EM算法可能求解到的是局部最优解。由于现在基本都是用Gibbs Sampling的方法求解,我也主要阅读的是Gibbs方面的论文。 为了看懂LDA的论原创 2012-11-18 21:11:40 · 17884 阅读 · 3 评论 -
各公司的机器学习平台的github
linkedin:https://github.com/linkedin/photon-ml/wiki/Photon-ML-Tutorial 我们用了里面的LR算法。奇虎:https://github.com/Qihoo360/XLearning阿里妈妈:https://github.com/alibaba/x-deeplearning...原创 2019-03-14 09:23:47 · 630 阅读 · 0 评论 -
最优化笔记
定义域是凸集,函数是凸集。一阶导数为0,二阶导数>0.函数的泰勒展开。变量是向量的函数的泰勒展开。Hessian矩阵 ,对称阵。一维搜索,牛顿方法。关键问题:迭代的方向,迭代多远? 算法能否保证到达x,多快到到 X×二分搜索,三等分搜索原创 2012-05-20 20:54:01 · 1099 阅读 · 0 评论 -
《Item-to-Item Collaborative Filtering》笔记
摘要:购买或者打分行为为工程师线上编程标题为妈妈线上婴儿玩具click-through andconversion rates点击率、转化率banneradvertisements:品牌广告top-sellerlists:销售排行榜电子商务推荐的挑战:(1)千万用户、百万商品(2)许多需要实时的推荐(3)新用户冷启动问题(4)老用户兴趣太原创 2012-06-08 09:24:24 · 6169 阅读 · 0 评论 -
基于概率传导和热传导的推荐算法R语言代码
本代码是论文《solving the apparent diversity-accuracy dilemma of recommender systems》的R语言模拟算法针对论文中的图1# user-object matrixv=c(1,0,0,1,0, 1,1,1,1,0, 1,0,1,0,0, 0,0,1,0,1)user=4ob=5am=ma原创 2012-04-17 16:13:46 · 2526 阅读 · 1 评论 -
Random Walks on the Click Graph
这是一篇微软剑桥研究院的文章。在搜索引擎领域,有几大公司和研究院产出了大量论文。论文最多的是“yahoo ! research”,其次可能就是 mircosoft Research和google research。在国内,搜狗实验室靠近清华,因此有大量的清华学生也写了很多论文。以此对比的是,百度、qq、阿里却很少产出相应的论文。或者是他们的论文,我没有读到吧。 基于有向图原创 2012-03-29 09:40:07 · 3169 阅读 · 0 评论 -
Karhunen-Loeve Transform (KLT, KL变换)
酉矩阵http://zh.wikipedia.org/wiki/%E9%85%89%E7%9F%A9%E9%98%B5 在晶体学里,酉变换叫做幺正变换,也就是将空间(可以是任意维的)中一组基矢做一个旋转操作,不改变矢量的大小和内积。而在量子力学里面,这个用处就更大了,本质上就是量子力学所说的表象变换。是连接两个表象的桥梁。 酉矩阵可以对原始向量数据做一个旋转。原创 2009-11-20 19:14:00 · 6453 阅读 · 1 评论 -
Query Recommendation using Query Log in Search Engines
背景:论文作者是Ricardo baeza-Yates,此人是率先研究关键词推荐的人物之一。当时还在 University of Chile 的Web Research 中心,后来去了yahoo研究院,领导在 Barcelona, Spain and Santiago的yahoo研究院。Ricardo baeza的主页:http://www.dcc.uchile.cl/~rba原创 2012-03-31 20:02:40 · 1305 阅读 · 0 评论 -
震惊!-- 优快云对推荐系统算法的漠视
互联网海量用户和海量信息面前,信息不再是稀缺的事物,反而出现了信息过载。当大量的信息摆在我们面前的时候,把哪些信息给我们的用户就是一个非常重要的问题了。根据用户的profile,用户最近的浏览记录,或者根据用户当前访问的网页做出推荐就是重要的问题。推荐系统对于提高网站的用户体验,提高网站PV是一个非常重要的问题。 广告对应互联网企业来说是非常重要的。当前googl原创 2012-03-15 20:00:09 · 1358 阅读 · 4 评论 -
用R语言计算信息熵
test.entropy print(d)res for(i in 1:length(d)){ if(d[i]!=0) res }return (-res)}d1=c(0.25,0.25,0.25,0.25)d2=c(0.5,0.5,0,0)d3=c(0.8,0.2,0,0)d4=c(1,0,0,0)pri原创 2012-04-10 20:36:21 · 13953 阅读 · 1 评论 -
《统计学习方法》阅读笔记
这本书一共235页,写了10个算法,可见每个算法都介绍的篇幅不长,貌似每个算法该讲的都讲了。详细看了一章最大熵,发现其实都是对已有文献的翻译,其中的部分符号修改了,更加通俗易读。不过翻译的非常好,是目前国内翻译的最好的吧。 最大熵的举例来自论文《A Maximum Entropy Approach to Natural Language Processing原创 2012-04-24 09:51:12 · 3362 阅读 · 3 评论 -
最大熵,三硬币模型的R语言代码
#最大熵算法#《 统计学习方法》最大熵,三硬币模型的R语言代码 有3个硬币,分布为A、B、C,硬币正面的概率是pai,p,q。投币实验如下,先投A,如果A是正面,即A=1,那么选择投B;A=0,投C。 最后,如果B或者C是正面,那么y=1;是反面,那么y=0; 投n次,n=0,结果序列是 :1,1,0,1,0,0,1,0,1,1Θ是向量pai,p,q。原创 2012-04-28 09:35:59 · 3513 阅读 · 0 评论 -
最大熵 IIS算法中的一个证明和图
参考《The Improved Iterative Scaling Algorithm:A Gentle Introduction》其中一个公式:当 x>0时, -log(x) >= 1-x 成立。证明:x-log(x)-1>=0令x=1+z,z>-1;得到:1-x=z由于:ln(1+z)=z-z^2/2+z^3/3-z^4/4..... 因此: -原创 2012-04-25 19:40:49 · 3188 阅读 · 0 评论 -
《People Searching for People Anasysis of a People Search Engine Log》
有很多人名搜索,包括各种垂直搜索,科技文献、医学搜索、书籍搜索(joyo.COM)、weibo搜索等等。即使在通用搜索,也有很多关键词是搜索人名的,包括明星,企业家等等。11%-17%的web query包含人名。4%的web query 指是人名组成。不少于57%的用户搜索自己的名字。46%的人搜索别人的名字以便了解他们的历史。主要是了解他们的背景、作品、故事吧。翻译 2012-05-01 19:00:40 · 1110 阅读 · 0 评论 -
数据挖掘书籍
Web数据挖掘http://book.douban.com/subject/3639345/集体智慧编程http://book.douban.com/subject/3288908/简单,有代码。这就是搜索引擎http://book.douban.com/subject/7006719/PageRank 和 Hub算法,讲得比较通俗,比较少使用公式。原创 2012-04-18 18:31:21 · 903 阅读 · 0 评论 -
推荐系统数据稀疏性问题
对于目前大规模的电子商务平台,如淘宝、ebey,其用户、商品数量都非常大。淘宝数据显示,2010年淘宝网注册用户达到3.7亿,在线商品数达到8亿,最多的时候每天6000万人访问淘宝网,平均每分钟出售4.8万件商品。假如我们要做User-Item的协同过滤算法,那么U-I矩阵大小是6000万 ×8亿。在这个数量级上面做协同过滤,即使用hadoop,计算起来也非常吃力,效果也比较差。让我们看看为什...原创 2012-05-03 09:16:54 · 30487 阅读 · 0 评论 -
bert-as-service 尝试
肖涵博士,bert-as-service 作者。现为腾讯 AI Lab 高级科学家、德中人工智能协会主席。启动server:bert-serving-start -model_dir uncased_L-12_H-768_A-12 -num_worker=4/home/zhongling/tensorflow1.4/lib/python3.5/site-packages...原创 2019-01-26 21:57:21 · 6250 阅读 · 1 评论