关联规则发现常常用在购物篮分析中。假设A和B同时被买的频率很高(支持度),买A的人同时买B的可能性也很高(置信度),则可以形成一条规则:A->B。表示买A的人也会买B。
对于自然语言处理来说,分词非常关键,而分词都要依赖词库。新词每天都在产生,如果词库中不包含某一个新词,则这个词就不会被分出来,所以自动发现新词酒很关键了。现在的自然语言处理还达不到语义发现新词的能力,也就是说机器第一次看到一个新词,它不会认为这是一个新词,而人可以有这个能力。比如对于新词“妹纸”,人可以通过山下文以及其它信息识别出这是一个新词。机器识别新词主要依赖统计,可以用到购物篮分析中的关联规则。如果“妹纸”出现的频率足够高(支持度),“妹”在“纸”前以及“纸”在“妹”后出现的可能性也很高(置信度),则“妹纸”就很有可能是一个新词。真的是这样子吗?未必!
还以上面的购物篮分析为例。假设ABC的支持度和置信度也很高,我们就不能单独任务A->B是一条规则,而应该有一条更具概括性的规则:A->B,C。同样,尽管“肿么”一词的支持度和置信度都很高,但是“肿么了”也很高,所以我们就不能认为“肿么”是一个新词,而是某一个词的一部分。
关联规则学习、监督学习、无监督学习、半监督学习,想必期间都有很多深刻的联系的。关联规则中的支持度和置信度在分类算法中如何体现?分类算法中的类别又对应着聚类算法中的什么?现在还没有发现,慢慢感悟吧!