- 博客(5)
- 收藏
- 关注
原创 排序学习(Learning to rank)
一、信息检索的评价指标MAP与NDCG是推荐召回中最常用的排序指标。1、MAP(Mean Average Precision)平均准确率,相关文档检索出后的准确率的平均值。检索出来的相关文档越靠前(rank越高),MAP就越高。(1)公式其中m是主题数量,先计算每个主题的AP,再求平均值;AP可以简单认为是:其中R表示相关文档的总个数,position( r)表示第 r 篇文档搜索出来的rank排名A。(2)实例topicdocsrankAP11,
2022-02-22 07:45:40
1616
1
原创 检索与倒排索引
一、检索Information Retrieval (IR):从大规模非结构化数据 的集合中找到满足用户信息需求的资料。包括信息的获取、表示、存储、组织和访问。倒排索引
2022-02-22 07:45:22
1338
原创 三种邻近搜索
Annoy介绍:Approximate Nearest Neighbor Oh Yeah,是一个带有Python bindings的C ++库。用于在海量文本中快速搜索相似的用户/物品(适合向量维度小于1000,向量数在百万级别)Annoy是Spotify开源的高维空间求近似最近邻的库,在Spotify使用它进行音乐推荐Annoy通过将海量数据建立成一个二叉树,使得每个数据查找时间复杂度是O(logn)原理:随机选择两点进行超平面划分,在划分的子空间内不停递归划分,直至每个子空间最多只剩下
2021-11-17 21:35:07
3380
原创 深度学习笔记
深度学习组成模块输入/输出模型损失函数优化器(优化参数,减小损失函数)一、损失函数查看:https://zhuanlan.zhihu.com/p/588830951、目的:用来评价模型的性能好坏,损失函数越好,通常模型的性能越好。(表示模型的预测值和真实值不一样的程度)2、常用的损失函数PS:划重点KL散度:包括熵和交叉熵熵:H(X) = -p logp交叉熵:KL散度(描述两个分布的相似性)的一部分二、优化器SGBExponential moving average
2021-07-13 08:03:20
306
原创 NLP相关记录
一、CSRankings: Computer Science Rankingshttp://csrankings.org/#/index?all&us二、NLP领域顶会1.自然语言处理领域ACL, EMNLP, NAACL, COLING2.机器学习/深度学习领域ICML, NIPS, ICLR3、数据挖掘/信息检索KDD, WSDM, WWW4、人工智能AAAI, IJCAI5、Arxiv...
2021-06-19 08:31:51
142
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人