
数据挖掘
文章平均质量分 73
whiker
这个作者很懒,什么都没留下…
展开
-
冰山查询
原文地址在数据仓库领域有一个概念叫Iceberg query,中文一般翻译为“冰山查询”。冰山查询在一个属性或属性集上计算一个聚集函数,以找出大于某个指定阈值的聚集值。以销售数据为例,你想产生这样的一个顾客-商品对的列表,这些顾客购买商品的数量达到3件或更多。这可以用下面的冰山查询表示:Select P.cust_ID, P.item_ID, SUM(P.qty)转载 2015-08-05 00:05:25 · 729 阅读 · 0 评论 -
关联挖掘算法FP-Tree
转载地址 原文很详细 请移步原文FPTree算法的基本数据结构,包含一个一棵FP树和一个项头表,每个项通过一个结点链指向它在树中出现的位置。基本结构如下所示。需要注意的是项头表需要按照支持度递减排序,在FPTree中高支持度的节点只能是低支持度节点的祖先节点。另外还要交代一下FPTree算法中几个基本的概念:FP-Tree:就是上面的那棵树,是把事务数据转载 2015-08-05 00:03:21 · 1355 阅读 · 0 评论 -
Apriori算法详解
一、Apriori算法简介: Apriori算法是一种挖掘关联规则的频繁项集算法用于消费市场价格分析,猜测顾客的消费习惯;网络安全领域中的入侵检测技术;可用在用于高校管理中,根据挖掘规则可以有效地辅助学校管理部门有针对性的开展贫困助学工作;也可用在移动通信领域中,指导运营商的业务运营和辅助业务提供商的决策制定。二、实现步骤Apriori算法是一种最有影响的挖掘转载 2015-08-04 23:55:55 · 2462 阅读 · 0 评论 -
N-gram模型
N-Gram是大词汇连续语音识别中常用的一种语言模型,对中文而言,我们称之为汉语语言模型(CLM, Chinese Language Model)。汉语语言模型利用上下文中相邻词间的搭配信息,在需要把连续无空格的拼音、笔划,或代表字母或笔划的数字,转换成汉字串(即句子)时,可以计算出具有最大概率的句子,从而实现到汉字的自动转换,无需用户手动选择,避开了许多汉字对应一个相同的拼音(或笔划串,或数字串转载 2015-09-26 21:16:21 · 441 阅读 · 0 评论