python数据挖掘入门与实践(一)

本文是Python数据挖掘入门系列的第一部分,介绍了如何开启数据挖掘之旅,讲解了亲和性分析的概念及其在超市商品摆放、推荐系统中的应用。详细解释了支持度和置信度的计算,并通过例子展示了如何评估规则的可靠性。接着,文章讨论了分类问题,以鸢尾花分类为例,探讨了离散化和OneR算法在解决分类问题中的作用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

第一章 开启数据挖掘之旅
打开jupyter notebook的方式:
在命令提示符(cmd)中输入:jupyter notebook就可以打开Web浏览器创建新的实例。
关闭:在cmd中输入Ctrl+C,确认关闭即可。
1.3 亲和性分析
应用场景:超市商品的摆放、向网站用户推送、电影推荐等。
找出规则。对于找出的规则需要判断其优劣,通过支持度(support)和置信度(confidence)。
支持度指数据集中规则应验的次数,或者是次数除以规则有效前提下的总数量。衡量的是给定规则应验比例。
置信度是指符合给定条件的所有规则里,跟当前规则结论一致的比例有多大,衡量的是规则准确率。计算方法:当前规则的出现次数除以条件相同的规则的数量。
举例:顾客购买了苹果,也购买了香蕉为例。
给定条件即为:购买了苹果,该事件发生的次数:num_occurances
规则应验的次数为:购买了苹果而且购买了香蕉:valid_rules
规则失效的次数为:购买了苹果但是没有购买香蕉:invalid_rules
则支持度=valid_rules,置信度=valid_rules/num_occurances。
根据支持度和置信度对rules进行排名,就能得到可靠性比较高的关联规则,然后做出反应。
在该亲和性问题中,我们关心的是两个变量之间的关系,比如:如何卖出更过的苹果。
亲和性分析算法的目标是从数据集中发现用以指导实践的规则。
也可以将是否购买苹果作为标签,转化成一个二分类问题,只寻求顾客购买苹果的规则
1.4 分类问题。建立一个能够根据已有知识对没有见过的个体进行分类的模型。
以莺尾花分类为例,使用sklearn.datasets中的iris数据。
(使用的算法为 ,要求使用类别型特征值)首先将数据集中的连续值特征转化为离散值,该过程叫作离散化。
最简单的离散化算法,莫过于确定一个阈值,将低于该阈值的特征值置为0,高于阈值的置
为1。我们把某项特征的阈值设定为该特征所有特征值的均值。每个特征的均值计算方法如下。

attribute_means = X.
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值