“我感兴趣的电子新闻稿”或“讨论机器学习的万维网页”。在这两种情况下,如果计算机可以精确地学习到目标概念,就可从大量在线文本文档中自动过滤出最相关的文档显示给读者。
这里描述了一个基于朴素贝叶斯分类器的文本分类的通用算法。
将要展示的朴素贝叶斯算法遵循以下的问题背景:
1、考虑实例空间X包含了所有的文本文档(即任意长度的所有可能的单词和标点符号串)。
2、给定某未知目标函数f(x) 的一组训练样例,f(x)的取值来自于某有限集合V。此任务是从训练样例中学习,以预测后续文本文档的目标值。
作为示例,这里考虑的目标函数是:将文档分类为对某人是否感兴趣,使用目标值like 和dislike代表这两类。