《数学之美(第一版)》笔记 —— 第11章

本文深入探讨了TF-IDF算法,解释了关键词频率(TF)和逆文本频率指数(IDF)的概念,以及它们如何用于衡量网页和查询的相关性。通过具体示例,展示了IDF如何调整关键词权重,使关键主题的词更具影响力。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

第11章 如何确定网页和查询的相关性

  • 几个概念:

    • 关键词的频率/单文本词频(Term Frequency,TF):关键词次数除以网页的总字数。
    • 停止词(Stop Word):度量时不需要考虑的词。例如中文的“的,和,中”等。
    • 逆文本频率指数(Inverse Document Frequency,IDF):IDF=log(D/Dw)IDF=log(D/D_{w})IDF=log(D/Dw) ,其中DDD是全部网页数,而DwD_{w}Dw是关键词出现过的网页数。作为每个搜索关键词的权重。(例如“原子能的应用”中,“原子能”的权重需要更高,而“的”以及“应用”的权重应该更低。假定所有网页数量D=100D=100D=100,而“的”在所有网页中都出现,那么他的IDF=log(100/100)=0IDF=log(100/100)=0IDF=log(100/100)=0,而假设“原子能”出现次数为20,那么它的权重就是IDF=log(100/20)=0.6989IDF=log(100/20)=0.6989IDF=log(100/20)=0.6989
    • 所谓的IDF,其实就是给定一个特殊条件下关键词的概率分布的交叉熵。
  • 相关性计算公式变为:TF-IDF
    在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值