
数据挖掘
筱文rr
这个作者很懒,什么都没留下…
展开
-
AttributeError: module ‘tensorflow‘ has no attribute ‘py_func‘
AttributeError: module 'tensorflow' has no attribute 'py_func'原创 2023-03-08 13:21:57 · 712 阅读 · 1 评论 -
TypeError: Cannot convert a symbolic Keras input/output to a numpy array.
TypeError: Cannot convert a symbolic Keras input/output to a numpy array.原创 2023-03-08 12:51:49 · 849 阅读 · 1 评论 -
数据挖掘——推荐系统(分别基于用户和商品)
近年来,推荐系统充分应用于我们生活中,我们购物时,购物软件会根据我们日常购物以及浏览信息向我们推荐系统自认为我们需要的东西;看小视频时,软件会记录我们浏览信息,向我们推荐我们经常浏览的类型等。通过这个实验了解这些推荐系统的原理及实现。原创 2020-06-27 20:24:30 · 2615 阅读 · 0 评论 -
泰坦尼克沉船数据预测及可视化分析
泰坦尼克号沉船事件发生在1912年4月。泰坦尼克号是当时世界上最大的客运轮船,首航泰坦尼克号从英国南安普敦出发,途经法国瑟堡-奥克特维尔以及爱尔兰昆士敦,计划中的目的地为美国纽约。由于航行途中瞭望员没有及时发现前方的冰峰,船撞上冰峰发生船难。随后,泰坦尼克号沉没,2224名乘客和机组人员中有1502人遇难。沉船导致大量伤亡的原因之一是没有足够的救生艇给乘客和船员。一些人可能比其他人更有可能生存,比如妇女,儿童和上层阶级,但,幸存下来的因素研究及讨论一直没有停止过。原创 2020-06-27 20:07:22 · 4513 阅读 · 1 评论 -
毒蘑菇数据集的分类及评估
对于朴素贝叶斯算法,准确率为93.3%,召回率为88.3%,从准确率及召回率值来看,朴素贝叶斯分类算法可以用于预测,但与决策树及KNN算法相比,朴素贝叶斯算法的预测能力还是不够的。由于分析对象是蘑菇是否有毒,对于食用物来说我们要提高召回率即查全率,相比三种模型,决策树和KNN都将准确率和召回率达到最大值,可很有说服力的作为预测模型,相比较而言朴素贝叶斯召回率只有88.3%,由于有更好的预测模型,因此可以忽略朴素贝叶斯方法。a) 查看数据行列情况,判断是否有空行,进行删除;决策树效果:(未解决中文乱码问题)原创 2020-06-27 18:11:57 · 4544 阅读 · 0 评论 -
数据的探索分析及处理
首先将数据集转化为数据框格式,type(chipo)可查看chipo的数据格式,chipo.head(10)可查出数据的前10条记录,chipo.shape查看数据的形状,第一个参数表示行的个数,第二个参数表示列的个数,list(chipo)查看列名集合,chipo.index查看数据的索引,另外,结合具体数据得出其他结果,例如总金额等于总数量与单价的乘积等。在实际数据挖掘过程中,我们拿到的初始数据,往往存在缺失值、重复值、异常值或者错误值,通常这类数据被称为“脏数据”,需要对其进行清洗。原创 2020-06-27 17:55:11 · 376 阅读 · 0 评论 -
数据挖掘——对鸢尾花数据进行聚类分析
k-means算法中的k代表类簇个数,means代表类簇内数据对象的均值(这种均值是一种对类簇中心的描述),因此,k-means算法又称为k-均值算法。k-means算法是一种基于划分的聚类算法,以距离作为数据对象间相似性度量的标准,即数据对象间的距离越小,则它们的相似性越高,则它们越有可能在同一个类簇。k-means算法是一种聚类算法,所谓聚类,即根据相似性原则,将具有较高相似度的数据对象划分至同一类簇,将具有较高相异度的数据对象划分至不同类簇。原创 2020-06-27 17:44:34 · 6848 阅读 · 0 评论 -
数据挖掘——关联分析(关联规则产生)
输入事务集,设置最小支持度及最小置信度阈值,调用apyori库中的apriori方法,在这里不满足最小支持度、置信度和提升度的项集以及规则会被自动排除,进而遍历Apriori后的结果得出频繁项以及频繁项的支持度,同时也产生达到最小置信度阈值的规则。其中,挖掘或识别出所有频繁项集是该算法的核心,占整个计算量的大部分。通过自己编写的函数输出频繁1项集、频繁2项集、频繁3项集,以及产生达到最小置信度阈值的规则。(1) 通过迭代,检索出事务数据集中的所有频繁项集,即支持度不低于用户设定的阈值的项集;原创 2020-06-27 17:36:56 · 2195 阅读 · 0 评论 -
数据挖掘——最近邻、朴素贝叶斯方法
同使用KNN训练模型的大致思路一样,先将数据集划分为训练集和测试集,再创建模型GaussianNB(),将训练数据传入模型对模型进行训练,最后用所建模型进行预测,在这里分别对训练集和测试集进行预测,有结果可看出所建朴素贝叶斯模型对训练数据预测的准确率为0.96,对测试集预测的准确率为0.95,由于测试集和训练集的准确率都较高,故模型可用。在本实验中随机选择4个数作为一条记录,K值选择3,可得出与该随机记录相邻的3条记录,最后得出该随机记录预测标签为2。原创 2020-06-27 17:28:38 · 958 阅读 · 0 评论 -
数据挖掘——决策树分类算法
算法原理决策树算法依据对一系列属性取值的判定得出最终决策。在每个非叶子节点上进行一个特征属性的测试,每个分支表示这个特征属性在某个值域上的输出,而每个叶子节点对应于最终决策结果。使用决策树进行决策的过程就是从根节点开始,测试待分类项中相应的特征属性,并按照其值选择输出分支,直到到达叶子节点,将叶子节点对应的类别作为决策结果。算法的目的是产生一棵泛化性能强,即处理未见数据能力强的决策树。实验内容1、利用相应库中算法对鸢尾花数据构建决策树2、可视化决策树3、分别查看训练集、测试集上模型的评估指标(准确原创 2020-06-27 17:20:11 · 830 阅读 · 0 评论 -
数据挖掘——数据可视化
数据获取从本地读取iris数据集,将列名命名为:‘sepal length’, 'sepal width ', ‘petal length’,‘petal width’, ‘species’。#数据获取iris_data=pd.read_csv("iris.csv",header=None,names=['sepal length','sepal width', 'petal length','petal width','species'])iris=pd.原创 2020-06-27 17:13:33 · 1299 阅读 · 0 评论 -
数据挖掘——数据的清洗与预处理
学习了数据分析包pandas,利用pandas包中的数据结构DataFrame以及该结构中的方法对数据进行分析。原创 2020-06-27 16:59:09 · 967 阅读 · 0 评论 -
拟合不足与过拟合
拟合不足由于属性预测太少,决策树生长不足,导致训练集和预测及的误差均偏大。过拟合过拟合指训练误差较小,但测试集误差较大,即模型的泛化能力差,对未知样本预测误差较大,形成过拟合。形成过拟合的原因有:缺乏代表性样本训练集样本规模过小模型的复杂度过高...原创 2020-04-21 10:25:22 · 1329 阅读 · 0 评论