TF - IDF算法面试与工作常见问题全解析

最新推荐文章于 2025-11-24 17:02:03 发布

原创

最新推荐文章于 2025-11-24 17:02:03 发布 · 927 阅读

CC 4.0 BY-SA版权

文章标签：

在自然语言处理领域，TF - IDF算法是一个基础且重要的概念。无论是在求职面试还是在实际工作中，都经常会遇到与TF - IDF相关的问题。以下是一些常见的问题及其详细解答：

TF - IDF（Term Frequency - Inverse Document Frequency）是一种用于衡量一个词在一段文本中“重要”程度的算法。它由词频（Term Frequency, TF）和逆文档频率（Inverse Document Frequency, IDF）两部分组成。

TF（词频）的作用：TF主要衡量一个词在当前文本中的“局部重要性”。例如，在一篇关于“机器学习”的文章中，“机器学习”这个词的TF值较高，表明它在这篇文章中出现频繁，对文章内容有一定的代表性。
IDF（逆文档频率）的作用：IDF主要用于抑制通用词，放大稀有词的权重。例如，“的”“是”“在”等通用词在很多文档中都会高频出现，它们的IDF值较低，从而在整体计算中其重要性被抑制；而像“量子计算”等专业术语在少数文档中出现，IDF值较高，更能体现其对相关文档主题的重要性。

公式
- 词频（TF）的公式： $TF(t,d)=词t在文档d中出现的次数文档d的总词数\text{TF}(t, d)=\frac{\text{词}t\text{在文档}d\text{中出现的次数}}{\text{文档}d\text{的总词数}}$ 。
- 逆文档频率（IDF）的公式： $IDF(t,D)=log⁡(语料库中总文档数N包含词t的文档数nt+1)\text{IDF}(t, D)=\log\left(\frac{\text{语料库中总文档数}N}{\text{包含词}t\text{的文档数}n_t + 1}\right)$