whaty6-优快云博客

原创排序学习（Learning to rank）

一、信息检索的评价指标MAP与NDCG是推荐召回中最常用的排序指标。1、MAP（Mean Average Precision)平均准确率，相关文档检索出后的准确率的平均值。检索出来的相关文档越靠前（rank越高），MAP就越高。（1）公式其中m是主题数量，先计算每个主题的AP，再求平均值；AP可以简单认为是：其中R表示相关文档的总个数，position( r)表示第 r 篇文档搜索出来的rank排名A。（2）实例topicdocsrankAP11,

2022-02-22 07:45:40 1854 1

原创检索与倒排索引

一、检索Information Retrieval (IR)：从大规模非结构化数据的集合中找到满足用户信息需求的资料。包括信息的获取、表示、存储、组织和访问。倒排索引

2022-02-22 07:45:22 1387

原创三种邻近搜索

Annoy介绍:Approximate Nearest Neighbor Oh Yeah，是一个带有Python bindings的C ++库。用于在海量文本中快速搜索相似的用户/物品（适合向量维度小于1000，向量数在百万级别）Annoy是Spotify开源的高维空间求近似最近邻的库，在Spotify使用它进行音乐推荐Annoy通过将海量数据建立成一个二叉树，使得每个数据查找时间复杂度是O(logn)原理：随机选择两点进行超平面划分，在划分的子空间内不停递归划分，直至每个子空间最多只剩下

2021-11-17 21:35:07 3460

原创深度学习笔记

深度学习组成模块输入/输出模型损失函数优化器（优化参数，减小损失函数）一、损失函数查看：https://zhuanlan.zhihu.com/p/588830951、目的：用来评价模型的性能好坏，损失函数越好，通常模型的性能越好。（表示模型的预测值和真实值不一样的程度）2、常用的损失函数PS：划重点KL散度：包括熵和交叉熵熵：H(X) = -p logp交叉熵：KL散度（描述两个分布的相似性）的一部分二、优化器SGBExponential moving average

2021-07-13 08:03:20 326

原创 NLP相关记录

一、CSRankings: Computer Science Rankingshttp://csrankings.org/#/index?all&us二、NLP领域顶会1.自然语言处理领域ACL, EMNLP, NAACL, COLING2.机器学习/深度学习领域ICML, NIPS, ICLR3、数据挖掘/信息检索KDD, WSDM, WWW4、人工智能AAAI, IJCAI5、Arxiv...

2021-06-19 08:31:51 162

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 排序学习（Learning to rank）

原创 检索与倒排索引

原创 三种邻近搜索

原创 深度学习笔记

原创 NLP相关记录

空空如也

空空如也

原创排序学习（Learning to rank）

原创检索与倒排索引

原创三种邻近搜索

原创深度学习笔记