
数据挖掘概念与技术读书笔记
文章平均质量分 70
SanFanCSgo
这个作者很懒,什么都没留下…
展开
-
数据挖掘读书笔记--第二章:认识数据
1. 一些散记知识点1.1 数据对象与属性类型关于属性定义:属性(attribute)是一个数据字段,表示数据对象的一个特征。一般习惯称为”特征”属性的分类(1) 标称属性: “与名称相关”,标称属性的值是一些符号或事物的名称。每个值代表某种类别、编码或状态,一次标称属性又被看作是分类的,这些值不必具有有意义的序。例如:水果的种类,苹果、香蕉(2) 二元属性:二元属性是...原创 2018-03-21 14:18:54 · 1556 阅读 · 1 评论 -
数据挖掘读书笔记--第九章:高级分类:BP神经网络、SVM支持向量机
散记知识点——“探索复杂高级的分类方法”1.神经网络1.1 神经网络的基本概念(1) 定义神经网络是一组连接的输入/输出单元,其中每个连接都与一个权重相关联。在学习阶段,通过调整这些权重,使得它能够预测输入元组的正确类标号来学习。(2) 前馈神经网络结构前馈神经网络,又称后向传播(BP, back propagation)神经网络。由一个输入层、一个或...原创 2018-04-24 15:16:06 · 3035 阅读 · 0 评论 -
数据挖掘读书笔记--第八章(下):分类:模型评估与选择、提高分类器准确率技术
散记知识点——“评估分类器,提高分类器”5. 模型评估与选择5.1 评估分类器性能(1) 评估分类器性能的度量评估分类器性能的度量主要有:准确率(识别率)、敏感度(召回率(recall))、特效性、精度(precision)、F1F1F_1和FβFβF_{\beta}。假定PPP为正元组数、NNN为负元组数,则下图为各种度量的计算公式: 其中:TPTPT...原创 2018-04-19 11:41:52 · 12695 阅读 · 0 评论 -
数据挖掘读书笔记--第八章(中):分类:贝叶斯分类法 、基于规则分类
散记知识点——“继续学习经典分类算法”3. 贝叶斯分类法(Naive Bayesian)贝叶斯分类法是统计学分类方法,基于贝叶斯定理。朴素贝叶斯分类法可以与决策树和经过挑选的神经网络分类器相媲美。用于大型数据库,贝叶斯分类法也表现出高准确率和高速度。3.1 贝叶斯定理设数据元组XXX有nnn个属性,给定XXX的nnn个属性值已知的条件下,XXX被认定为类别CCC的概率为P(...原创 2018-04-17 13:51:12 · 1571 阅读 · 0 评论 -
数据挖掘读书笔记--第六章:频繁模式挖掘、关联及相关性
散记知识点——“哪些商品组合频繁地被顾客同时购买?”1. 基本概念1.1 频繁项集、闭项集和关联规则(1) 支持度和置信度 设L=I1,I2,...,I3L=I1,I2,...,I3L={I_{1}, I_{2},...,I_{3}}是项的集合DDD是数据库事务的集合包含每个事务TTT(TTT是一个非空项集,T⊆LT⊆LT \subseteq L),设项集AAA有A→BA→B...原创 2018-04-03 21:53:23 · 2683 阅读 · 0 评论 -
数据挖掘读书笔记--第八章(上):分类:基本概念 、决策树
散记知识点——“分类是一种重要的数据分析形式”1. 基本概念1.1 分类的目的通过构建分类模型来预测一些数据元组的类标签。1.2 分类的过程(1) 构建训练集训练集由数据库中的元组和它们相关联的类标号组成。假设数据库DDD中的每个元组XXX有nnn个属性A1,A2,...,AnA1,A2,...,AnA_{1}, A_{2}, ..., A_{n},而每个属性...原创 2018-04-16 14:57:10 · 1239 阅读 · 0 评论 -
数据挖掘习题选做--第三章:ChiMerge离散法
数据挖掘概念与技术习题选做第三章习题import numpy as npimport matplotlib.pyplot as pltimport statsmodels.api as sm # 导入统计模型模块data = np.array([13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,3...原创 2018-03-27 13:19:54 · 2689 阅读 · 0 评论 -
数据挖掘习题选做--第六章:Apriori算法、FP-growth
数据挖掘概念与技术习题选做第六章习题(1) 用python简单实现Apriori算法# -*- coding: utf-8 -*-__author__ = "Yunfan Yang"def gen_L1(TID): """从事务集中产生频繁1项集""" initial_C1 = {} # 定义一个空字典用于统计初始项集信息,键值对形如{"M": ...原创 2018-04-09 15:28:07 · 6156 阅读 · 1 评论 -
数据挖掘习题选做--第二章
数据挖掘概念与技术习题选做第二章习题 用python解答如下:import numpy as npimport matplotlib.pyplot as pltdata = np.array([13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70])# 数据的均值...原创 2018-03-21 19:10:35 · 2537 阅读 · 0 评论 -
数据挖掘读书笔记--第三章:数据预处理
散记知识点——“低质量的数据将导致低质量的挖掘结果。”数据清理可以用来清除数据中的噪声,纠正不一致。数据集成将数据由多个数据源合并成一个一致的数据储存,如数据仓库。数据归约可以通过如聚集、删除冗余特征或聚类来降低数据的规模。数据变换(如,规范化)可以用来把数据压缩到较小的区间。1. 数据预处理:概述1.1 数据质量 数据质量涉及到许多因素,包括准确度、完整性、一致性、...原创 2018-03-25 19:43:52 · 2617 阅读 · 1 评论 -
数据挖掘读书笔记--第九章:聚类分析:基本概念和方法
散记知识点——“聚类:经典的无监督学习方法”1.基本概念和方法(1) 聚类的基本概念聚类是一个把数据对象划分成多个组或簇的过程,使得簇内的对象具有很高的相似性,但与其他簇中的对象很不相似。(2) 聚类的基本方法基于距离的划分方法给定一个nnn个对象的集合,划分方法构建数据的kkk个划分。大部分的划分方法是基于距离的,首先给定要构建的分区数kkk构建一个初始划分。通...原创 2018-05-25 21:05:12 · 4046 阅读 · 1 评论