自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 排序学习(Learning to rank)

一、信息检索的评价指标MAP与NDCG是推荐召回中最常用的排序指标。1、MAP(Mean Average Precision)平均准确率,相关文档检索出后的准确率的平均值。检索出来的相关文档越靠前(rank越高),MAP就越高。(1)公式其中m是主题数量,先计算每个主题的AP,再求平均值;AP可以简单认为是:其中R表示相关文档的总个数,position( r)表示第 r 篇文档搜索出来的rank排名A。(2)实例topicdocsrankAP11,

2022-02-22 07:45:40 1616 1

原创 检索与倒排索引

一、检索Information Retrieval (IR):从大规模非结构化数据 的集合中找到满足用户信息需求的资料。包括信息的获取、表示、存储、组织和访问。倒排索引

2022-02-22 07:45:22 1338

原创 三种邻近搜索

Annoy介绍:Approximate Nearest Neighbor Oh Yeah,是一个带有Python bindings的C ++库。用于在海量文本中快速搜索相似的用户/物品(适合向量维度小于1000,向量数在百万级别)Annoy是Spotify开源的高维空间求近似最近邻的库,在Spotify使用它进行音乐推荐Annoy通过将海量数据建立成一个二叉树,使得每个数据查找时间复杂度是O(logn)原理:随机选择两点进行超平面划分,在划分的子空间内不停递归划分,直至每个子空间最多只剩下

2021-11-17 21:35:07 3380

原创 深度学习笔记

深度学习组成模块输入/输出模型损失函数优化器(优化参数,减小损失函数)一、损失函数查看:https://zhuanlan.zhihu.com/p/588830951、目的:用来评价模型的性能好坏,损失函数越好,通常模型的性能越好。(表示模型的预测值和真实值不一样的程度)2、常用的损失函数PS:划重点KL散度:包括熵和交叉熵熵:H(X) = -p logp交叉熵:KL散度(描述两个分布的相似性)的一部分二、优化器SGBExponential moving average

2021-07-13 08:03:20 306

原创 NLP相关记录

一、CSRankings: Computer Science Rankingshttp://csrankings.org/#/index?all&us二、NLP领域顶会1.自然语言处理领域ACL, EMNLP, NAACL, COLING2.机器学习/深度学习领域ICML, NIPS, ICLR3、数据挖掘/信息检索KDD, WSDM, WWW4、人工智能AAAI, IJCAI5、Arxiv...

2021-06-19 08:31:51 142

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除