
ml
文章平均质量分 62
田小成plus
这个作者很懒,什么都没留下…
展开
-
Airbnb系列三《Managing Diversity in Airbnb Search》 搜索多样性
搜索系统中一个长期的问题是结果多样性。从产品角度讲,给用户多种多样的选择,有助于提升用户体验及业务指标。多样性需求和模型的目标是相矛盾的,因为传统ctr模型是 point wise,只看单个相关性不管相邻之间item差异。论文解决多样性的问题,从启发式的方法开始,最后介绍了结合RNN 的创新性的 DL 方法。原创 2023-02-28 21:10:19 · 805 阅读 · 0 评论 -
Airbnb系列二《Airbnb搜索应用深度学习的曲折之路》
此篇论文是Airbnb搜索团队应用深度学习的曲折之路,讲述了一个微笑曲线式的过山车实践过程。整篇论文非常诚恳,并且具有很强的实践意义和借鉴价值。此篇博客是在组内的一次分享,上传的都是图片格式,感兴趣的小伙伴,可以私信楼主,发送ppt原文。原创 2022-10-13 10:47:18 · 247 阅读 · 0 评论 -
Airbnb系列一 《Real-time Personalization using Embeddings for Search Ranking at Airbnb》论文分享
Airbnb团队开 embedding之先河,将 embedding技术成功应用到搜索排序业务中,构建了基于embedding的实时推荐系统,并取得了不错的业务收益。此篇论文也获得了 2018 kdd best paper,值得反复咀嚼。此篇博客是在组内的一次分享,上传的都是图片格式,如有感兴趣的小伙伴,可私信楼主,发送ppt原文。原创 2022-10-13 10:10:58 · 500 阅读 · 0 评论 -
Milvus向量检索Demo初探
Milvus 是什么Milvus 于 2019 年开源,致力于存储、索引和管理由深度神经网络学习与其他机器学习模型生成的海量 Embedding 向量。Milvus 向量数据库专为向量查询与检索设计,能够为万亿级向量数据建立索引。与现有的主要用作处理结构化数据的关系型数据库不同,Milvus 在底层设计上就是为了处理由各种非结构化数据转换而来的 Embedding 向量而生。Milvus 2.0 是一款云原生向量数据库,采用存储与计算分离的架构设计,所有组件均为无状态组件,极大地增强了系统弹性和灵活性原创 2022-04-12 18:48:54 · 2856 阅读 · 0 评论 -
ANN之乘积量化PQ
一、何为乘积量化乘积量化(Product Quantization)简称 PQ。是和VLAD算法由法国INRIA实验室一同提出来的,为的是加快图像的检索速度,所以它是一种检索算法。现有的检索算法存在一些弊端,如 kd树不适合维度高的数据,哈希(LSH)适用中小数据集,而乘积量化这类方法,内存占用更小、数据动态增删更方便。二、算法流程PQ系列的算法流程分三个阶段:训练、量化、查询2.1 训练分段:假设样本向量维度D=64,PQ算法会先将原始的D维向量分成M段,假设M=8,那么一个原始向量就被分成8原创 2022-04-07 12:15:40 · 5367 阅读 · 0 评论 -
ANN之KD-Tree
一、何为 KD-treekd(k-dimensional)树的概念自1975年提出,试图解决的是在k维空间为数据集建立索引的问题。在已知样本空间如何快速查询得到 query 近邻?唯有以空间换时间,建立索引便是计算机世界的解决方法。但是索引建立的方式各有不同,kd树只是是其中一种。它的思想如同分治法,即:利用已有数据对k维空间进行切分。当 k=1时,也就是一维空间的kd树,就是我们所熟知的二叉查找树二叉树在时间复杂度上是O(logN),远远优于全遍历算法。对于该树,在空间上理解就是,树的每个节点把对原创 2022-04-06 18:41:05 · 2338 阅读 · 0 评论 -
TensorFlow分布式采坑记
文章目录前言单机单卡单机多卡分布式训练分布式训练架构:parameter server分布式训练策略:模型并行与数据并行模型并行数据并行复制训练: Replicated trainingin-graph replicationbetween-graph replication分布式参数配置MonitoredTrainingSession异步训练同步训练Distributed_mnist加载模型预测...原创 2019-01-06 21:35:09 · 14641 阅读 · 10 评论 -
FM模型解读
最近在公司一直在搞FM及FFM模型优化,也做了几把实验,但是对FM模型的原理仍是一知半解,理解的不是很透彻,加上最近又开始找工作了,因此对FM模型做下梳理加深理解。一.FMFM解决的问题:大规模稀疏数据下的特征组合问题。为什么要特征组合: 实践中通过观察大量的样本数据可以发现,某些特征经过关联之后,与label之间的相关性就会提高。例如“USA”与“Thanksgiving”,“China”与原创 2017-08-03 00:36:56 · 23449 阅读 · 7 评论 -
Sublime Text2中文乱码问题
Sublime Text 2是一个非常不错的源代码及文本编辑器,但是不支持GB2312和GBK编码在很多情况下会非常麻烦。不过Sublime Package Control所以供的插件可以让Sublime Text 2几乎完美地支持CJK编码的文本。安装Sublime Package Control的过程,网上有很多人说打开命令行输入代码之类的或者直接复制Convert2Utf8插件,但是楼主都试过原创 2017-07-29 12:56:07 · 994 阅读 · 0 评论 -
统计学习方法第三章
统计学习方法第三章:K近邻K近邻法和其他的机器学习方法不太一样,因为它没有显示的学习的过程,可以理解为没有训练的过程。K近邻思想:给定一个训练集,当对新的测试样本分类时,分别计算测试样本和训练集中每个样本的距离即相似度,从中选择前K个最相似的样本,然后从这K个最相似样本中,选择出现次数最多的类别作为测试样本的类别。可见K近邻法的好坏与三个因素有关:如何度量样本相似度(距离度量)?K值如何选取(K原创 2017-02-24 23:13:08 · 2207 阅读 · 0 评论 -
统计学习方法 第五章
统计学习第五章:决策树决策树模型 分类决策树模型是一种描述对实例进行分类的树形结构,表示基于特征对实例进行分类的过程。决策树由结点和有向边组成。结点有两种类型:内部节点和叶节点,内部节点表示一个特征或属性,叶节点表示一个具体的类。 分类的时候,先从根节点开始,当前节点设为根节点,当前节点必定是一种特征,根据实例的在该特征上的取值,向下一层的节点移动,直到到达叶节点,将实例分到叶节点对应的类中。原创 2017-02-27 00:08:38 · 707 阅读 · 0 评论 -
统计学习方法第四章
统计学习方法第四章:朴素贝叶斯法朴素贝叶斯法 朴素贝叶斯法基于特征条件独立假设学习到给定数据集的联合概率分布P(X,Y),具体地是通过学习先验概率分布及条件概率分布,两个概率相乘即得联合概率分布。先验概率是在缺乏某个事实的条件下描述某个变量,个人理解在机器学习中,我们要求出测试样例属于某一个类别的概率,那么先验概率就是不考虑任何因素每个类别出现的概率(P(Y=Ck)),这种情况下应该将样本归原创 2017-02-26 14:23:17 · 666 阅读 · 0 评论