
数据挖掘
记录学习数据挖掘得知识,欢迎指点,希望大家一起进步
angulaer
这个作者很懒,什么都没留下…
展开
-
数据挖掘习题之决策树算法
根据processed.cleveland.data数据进行数据挖掘操作UCI公开数据集-heartdisease,属性信息如下:1.#3(age)2.#4(sex)3.#9(cp)4.#10(trestbps)5.#12(chol)6.#16(fbs)7.#19(restecg)8.#32(thalach)9.#38(exang)10.#40(oldpeak)11.#41(slope)12.#44(ca)13.#51(thal)14.#58(num)(thepredicted原创 2020-05-17 13:37:44 · 3162 阅读 · 5 评论 -
数据挖掘之关联规则-FP树
1.FP树的生成过程1)扫描数据,得到所有频繁一项集的的计数。然后删除支持度低于阈值的项,将1项频繁集放入项头表,并按照支持度降序排列。2)扫描数据,将读到的原始数据剔除非频繁1项集,并按照支持度降序排列。3)读入排序后的数据集,插入FP树,插入时按照排序后的顺序,插入FP树中,排序靠前的节点是祖先节点,而靠后的是子孙节点。如果有共用的祖先,则对应的公用祖先节点计数加1。插入后,如果有新节点...原创 2020-05-05 12:24:33 · 5007 阅读 · 47 评论 -
数据挖掘之对河南省的疫情分析
对河南省疫情进行数据挖掘import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport requests#请求地址url = "http://dia.t.gdatacloud.com/api/diagnose/diagnosePeople/ageStatis"params = { 'ar...原创 2020-04-05 17:07:59 · 3461 阅读 · 16 评论 -
数据预处理之python实现噪声处理
1.噪声是什么?数据集中的干扰数据(对场景描述不准确的数据)2.噪声怎么产生的?举个例子:手机信号来自于基站发射的电磁波,有的地方比较强,有的地方比较弱。运营商的工程师会负责统计不同区域信号强弱来进行网络规划,工程师采集信号的方法就是将一个信号接受终端固定到车上,然后开车绕着基站转,信号终端就会自动采集不同区域的信号强度,生成一份数据。但是如果车在采集过程中遇到了突发事件、急刹车,就可能会对信号...转载 2020-03-18 10:35:18 · 12356 阅读 · 3 评论 -
数据预处理课后习题
3.3在习题2.2中,属性age包括如下值(以递增序):13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70。(a)使用深度为3的箱,用箱均值光滑以上数据。说明你的步骤,讨论这种技术对给定数据的效果(b)如何确定该数据中的离群点?(c)还有什么其他方法来光滑数据?a)步骤:步骤1...原创 2020-03-18 09:42:47 · 15259 阅读 · 2 评论 -
python实现数据缺失处理
数据缺失处理python函数数据缺失判断函数isnull() data.isnull()(1)数据过滤(dropna)数据过滤是将数据直接过滤掉dropna(axis=0, how='any', thresh=None, subset=None, inplace=False)parameters 详解axis default 0指行,1为列how {‘any’, ‘all’...原创 2020-03-18 08:49:24 · 2497 阅读 · 6 评论 -
数据挖掘之数据预处理小结
数据预处理的主要步骤:数据清理,数据集成、数据规约和数据变换。目的主要是将缺失的数据补充完整,消除噪声数据,识别和删除离群点并解决不一致性。做到将数据格式标准化、异常数据清除、错误纠正、重复数据清除。1)异常数据处理:异常数据分析:(1)使用统计值进行判断,最大值、最小值、平均值等判断是否超出范围。(2) 使用3原则,异常值和平均值比超出三倍标准差及小概率事件,可看做异常值.(3)箱线图...原创 2020-03-18 08:17:40 · 2023 阅读 · 3 评论 -
数据挖掘之浅谈认识数据
欧几里得距离:曼哈顿距离:欧几里得距离和曼哈顿距离满足以下数学性质:闵可夫斯基距离:上确界距离:余弦相似性:余弦相似性其实是一种变量,它可以用来比较文档,或是针对给定的查询词向量对文档排序。令x,y是两个待比较的向量,使用余弦度量作为相似性函数,我们有如下:小练习:在数据分析中,最重要的是选择相似性度量,然而,不存在广泛接受的主观相似性度量,结果可能因所用的相似性度量而...原创 2020-03-16 22:03:34 · 3663 阅读 · 2 评论 -
Anaconda安装以及使用
1、Anaconda安装与使用(1)安装:https://www.anaconda.com/download/#windows,访问上述超链接,选择Anaconda for Windows Installer中的Python 3.7版本,根据系统配置选择64位或者32位的软件包进行下载。下载可执行文件Anaconda3-XXXX-Windows-x86_64.exe后,双击运行。安装过程还需注意...原创 2020-03-12 00:23:41 · 1988 阅读 · 1 评论