
数据挖掘
everlasting88
这个作者很懒,什么都没留下…
展开
-
关联度和支持度
支持度和置信度总是伴随着关联规则存在的,它们是对关联规则的必要的补充。 对某条关联规则而言,如 A -> B (support=30%, confidence= 60%) 其中的support=30%是说,在所有的事务中同时出现A和B的概率。 而,confidence=60%是说,所有事务中,在出现A的情况下出现B的概率,即条件概率。 总体来说就是支持度A和B占总体样本的概率,置信度出...原创 2013-08-21 10:20:10 · 256 阅读 · 0 评论 -
tf-idf原理
[size=large]从例子上理解比较简单:[/size] 词频 (TF) 是一词语出现的次数除以该文件的总词语数。假如一篇文件的总词语数是100个,而词语“母牛”出现了3次,那么“母牛”一词在该文件中的词频就是3/100=0.03。一个计算文件频率 (IDF) 的方法是测定有多少份文件出现过“母牛”一词,然后除以文件集里包含的文件总数。所以,如果“母牛”一词在1,000份文件出现过,而文件总...原创 2013-09-23 18:39:31 · 124 阅读 · 0 评论