TF-Ranking: 用于学习到排名的可扩展TensorFlow库
排名,以最大化整个列表效用的方式订购项目列表的过程,适用于搜索引擎和推荐系统等广泛的领域到机器翻译,对话系统,甚至计算生物学。在这些应用程序(以及许多其他应用程序)中,研究人员经常使用一组称为学习到排名的监督机器学习技术。在许多情况下,这些学习到排名技术应用于非常大的数据集 - TensorFlow 的可扩展性场景可能是一个优势。但是,目前还没有在TensorFlow中应用学习到排名技术的开箱即用支持。据我们所知,还没有其他开源图书馆专门应用大规模的学习到排名技术。
今天,我们很高兴能够分享TF-Ranking,这是一个可扩展的TensorFlow库,用于学习排名。正如我们在最近的论文中所描述的,TF-Ranking提供了一个统一的框架,其中包括一套最先进的学习到排名算法,并支持成对或列表丢失函数,多项目评分,排名度量优化,和无偏见的学习排名。
TF-Ranking快速且易于使用,并创建高质量的排名模型。统一框架使ML研究人员,从业者和爱好者能够在单个库中评估和选择一系列不同的排名模型。此外,我们坚信,有用的开源库的关键不仅在于提供合理的默认设置,还能使我们的用户能够开发自己的自定义模型。因此,我们提供灵活的API,用户可以在其中定义和插入自己的自定义损失函数,评分函数和指标。
现有的算法和度量支持
学习到排名算法的目标是最小化损失函数在项目列表上定义,以优化任何给定应用程序的列表排序的效用。TF-Ranking支持广泛的标准逐点,成对和列表丢失函数,如先前的工作中所述。这确保了使用TF-Ranking库的研究人员能够复制和扩展以前发布的基线,从业者可以为他们的应用做出最明智的选择。此外,TF-Ranking可以通过嵌入和扩展到数亿个训练实例来处理稀疏特征(如原始文本)。因此,任何对构建真实世界数据密集型排名系统(如网络搜索或新闻推荐)感兴趣的人都可以使用TF-Ranking作为强大,可扩展的解决方案。
经验评估是任何机器学习或信息检索研究的重要组成部分。为了确保与先前工作的兼容性,我们支持许多常用的排名指标,包括平均倒数排名(MRR)和标准化折扣累积收益(NDCG)。我们还可以在TensorBoard(开源Te