
Data Mining
文章平均质量分 93
数据挖掘基本概念和方法学习记录
翻滚de蛋炒饭
改名了,之前叫 咸鱼翻弱鸡
展开
-
朴素贝叶斯网络进行邮件分类
朴素贝叶斯网络进行邮件分类样本: M封邮件,每份邮件被标记为垃圾邮件或者非垃圾邮件;目标: 第 M+1封邮件来的时候,判断是否是垃圾邮件;类别c: 垃圾邮件c1c1c1,非垃圾邮件c2c2c2词汇表: 统计M封邮件中出现的所有单词,记单词数目为N,即形成词汇表。将每个样本si向量化: 初始化N维向量xix_ixi,若词wjw_jwj在sis_isi中出现,则xij=1x_{ij}=1xij=1,否则,为0。从而得到1000个NNN维向量xxx。公式与其含义P(c∣x)=P(c)P(x∣原创 2021-06-21 11:18:07 · 614 阅读 · 0 评论 -
层次聚类
文章目录层次聚类距离度量凝聚层次聚类算法描述:优劣:code层次聚类距离度量层次聚类算法有多种,它们的步骤基本相同,差别在于聚类间距的定义不同。计算聚类距离间距的计算方法主要有:凝聚层次聚类AGNES(Agglomerative Nesting) 是凝聚的层次聚类算法,如果簇C1中的一个对象和簇C2中的一个对象之间的距离是所有属于不同簇的对象间欧式距离中最小的,C1和C2可能被合并。这是一种单连接方法,其每个簇可以被簇中的所有对象代表,两个簇之间的相似度由这两个簇中距离最近的数据点对的相似度来原创 2020-05-25 16:44:54 · 764 阅读 · 0 评论 -
随机游走记录
文章目录随机游走随机游走推荐介绍推荐中的随机游走推荐中的随机游走原创 2020-04-09 21:27:57 · 232 阅读 · 0 评论 -
线性回归实现——梯度下降
文章目录线性回归实现实验数据:实现结果:算法流程:代码实现:线性回归实现y=ax+by = ax + by=ax+bx,y 是向量,a,b是标量梯度下降法:a=a−α∂cost∂aa = a - \alpha \frac{\partial cost}{\partial a}a=a−α∂a∂costcost=12m∑i=1m(yi−y‘i)2cost= \frac{1}{2m}\s...原创 2019-10-15 12:28:25 · 502 阅读 · 0 评论 -
KNN算法(K近邻学习)
# KNN算法# 1)计算测试数据与各个训练数据之间的距离;# 2)按照距离的递增关系进行排序;# 3)选取距离最小的 K 个点;# 4)确定前 K 个点所在类别的出现频率;# 5)返回前 K 个点中出现频率最高的类别作为测试数据的预测分类import numpy as npimport operatordef createDataset(): ...原创 2019-09-09 21:24:23 · 412 阅读 · 0 评论 -
数据对象、属性和相似性
数据对象、属性和相似性## 数据对象别名:样本、实例、数据点 或 对象一般使用属性对应属性值来描述数据对象哈士奇:傻、大、黑白、撕家属性一个数据字段,表示数据对象的一个特征。别名:属性(DM)、维(数据仓库)、特征(ML)、变量属性类型:属性特点备注标称与名称相关,也被看作分类的趋势度量:众数二元也叫bool属性,TrueFa...原创 2019-08-18 14:41:22 · 1788 阅读 · 0 评论 -
数据挖掘引入:基础知识
好多的数据全球每天都在产生数以兆兆的数据,每个人的行为都会产生数据;数据的爆炸式增长并且广泛可用让我们真正进入数据时代。普通人面对这数据海洋就是束手无策+一脸懵逼(我是谁?我从哪儿来?我要去哪儿?)。但是在这数据海洋中有着无与伦比的财富等待着我们去发现。数据挖掘: 数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘 = Data Mining = 知识发现 = Kno...原创 2019-08-18 12:06:33 · 140 阅读 · 0 评论 -
数据仓库、OLAP和数据立方体
文章目录数据仓库、OLAP和数据立方体1. 数据仓库1.1. 数据仓库定义1.2. 关键术语解释2. 数据仓库和数据库的区别3. OLAP3.1. 基本概念1) 维2)操作3.2. OLAP分类4. 数据立方体4.1. 维灾难4.2. 方体的计算数据仓库、OLAP和数据立方体1. 数据仓库1.1. 数据仓库定义定义:面向主题、集成、时变和非易失的有组织的数据集合将定义解释一...原创 2019-08-20 11:30:37 · 4741 阅读 · 0 评论 -
信息论常见概念:熵、互信息、KL散度和信息增益
文章目录熵信息量熵联合熵条件熵相对熵互信息信息增益熵信息的不确定度信息量熵联合熵条件熵相对熵互信息信息增益名称公式解释信息量h(x)=log21P(x)=−log2P(x)h(x) = log_2 {\frac{1}{P(x)}} = - log_2 { P(x)}h(x)=log2P(x)1=−log2P(x)x:一个事件P(x):事件 x 发...原创 2019-08-23 22:05:16 · 1946 阅读 · 0 评论 -
数据挖掘–聚类思维导图
数据挖掘–聚类思维导图资源文件:请稍后原创 2019-07-30 20:55:13 · 1364 阅读 · 0 评论 -
数据挖掘--分类思维导图
数据挖掘–分类思维导图思维导图下载链接:稍等原创 2019-07-16 14:48:37 · 774 阅读 · 0 评论 -
数据挖掘 -- 分类的模型评估度量
数据挖掘 – 分类的模型评估度量混淆矩阵 CM(Confusion Matrix)actual/precideYesNo合计YesTPFNPNoFPTNN合计P^N^P+N 或者 P^ + N^术语含义例子TP(True Postive) :正确 分类的 正元组buy_computer = yes ...原创 2019-07-16 14:06:13 · 588 阅读 · 0 评论 -
数据挖掘-朴素贝叶斯分类
数据挖掘-朴素贝叶斯分类什么是分类?分类是一种重要的数据分析形式,它提取刻画重要数据类的模型。这种模型称为分类器,预测分类的(离散的,无序的)类标号。例如医生对病人进行诊断是一个典型的分类过程,医生不是一眼就看出病人得了哪种病,而是要根据病人的症状和化验单结果诊断病人得了哪种病,采用哪种治疗方案。再比如,零售业中的销售经理需要分析客户数据,以便帮助他猜测具有某些特征的客户会购买某种商品。...原创 2019-07-07 11:10:11 · 1447 阅读 · 0 评论 -
频繁模式增长Frequent-Pattern Growth(FP-Growth)
频繁模式增长Frequent-Pattern Growth(FP-Growth)由于Apriori算法的两大缺陷:大量候选集问题多次访问数据库FP-Growth特点:将代表频繁项集的数据库压缩成一棵频繁模式树无候选集只需两次访问数据库从DB构建一个FP树扫描DB,导出频繁项集(1-项集)将频繁项降序排列再次扫描DB,构建FP树TIDItem bough...原创 2019-06-07 19:30:33 · 1043 阅读 · 1 评论 -
挖掘频繁模式、关联和Apriori算法
挖掘频繁模式、关联和Apriori算法1. 引入1.1 基本概念频繁模式:频繁出现在数据集中的模式频繁模式挖掘:获取到给定数据集中反复出现的联系注:模式其实可以理解为,你在淘宝购物,你的购物车里面会购置的不同商品的集合种类,因为不止是只有你,还有其他用户也在买,因此大家购物车中购置的商品也不尽相同,因此可以把不同商品的组合集合看作为一种模式,而某种集合出现的次数较多,则可能视为频繁模式...原创 2019-06-07 14:05:15 · 803 阅读 · 0 评论