模型 |
描述 |
决策树 |
决策树算法将基于培训集中的值计算输出的几率。例如,20-30 岁年龄组中每年收入超过 60,000 美元,且有自己的房子的人比没有自己房子的 15-19 岁年龄组的人更可能需要别人提供整理草坪的服务。以年龄、收入和是否有房子等信息为基础,决策树算法可以根据历史数据计算某个人需要整理草坪的服务的几率。 |
关联规则 |
关联规则算法将帮助识别各种元素之间的关系。例如,在交叉销售解决方案中就使用了该算法,因为它会记录各个项之间的关系,可以用于预测购买某个产品的人也会有兴趣购买何种产品。关联规则算法可以处理异常大的目录,经过了包含超过五十万种商品的目录的测试。 |
Naïve Bayes |
Naïve Bayes 算法用于清楚地显示针对不同数据元素特定变量中的差异。例如,数据库中每个消费者的 Household Income(家庭收入)变量都会不同,可以作为预测未来购买活动的参数使用。此模型在显示特定组间的差异方面尤为出色,如那些流失的消费者和那些未流失 的消费者。 |
顺序簇化 |
顺序簇化算法用于根据以前时间的顺序分组或簇化数据。例如,Web 应用程序的用户经常按照各种路径浏览网站。此算法可以根据浏览站点的页面顺序对用户进行分组,以帮助分析消费者并确定是否某个路径比其他路径具有更高的收 益。此算法还可以用于进行预测,例如预测用户可能访问的下一个页面。请注意,顺序簇化算法的预测能力是许多其他数据挖掘供应商所无法提供的功能。 |
时间序列 |
时间序列算法用于分析和预测基于时间的数据。销售额是最常见的使用时间序列算法进行分析和预测的数据。此算法将发现多个数据序列所反映出来的模式,以便企业确定不同的元素对所分析序列的影响。 |
神经网络 |
神经网络是人工智能的核心。它们旨在发现数据中其他算法没有发现的关系。神经网络算法一般比其他算法更慢,但它可以发现各种并不直观的关系。 |
文本挖掘 |
文本挖掘算法出现在 SQL Server Integration Services 中,用于分析非结构化的文本数据。利用此算法,各个公司可以对非结构化数据进行分析,如消费者满意度调查中的“comments”(注释)节。 |