数据挖掘导论可视化部分总结

三个主题:汇总统计、可视化技术、联机分析处理OLAP

1-汇总统计的几个值:
* 频率
* 众数
* 百分位数:顾名思义,有序数据集合的百分位点的数值
* 均值
* 中位数
* 极差:数据的最大和最小的差
* 方差

        使用可视化技术可以快速地吸取大量可视化信息,有时候,使用非可视化工具来分析,以可视化来描述结果,并将结果交与领域专家进行快速排查,可以直接聚焦到重要模式上。

2-可视化数据的技术:
* 茎叶图:针对少量数据,来观测一维整型或连续数据,简单地说就是一种形式的直方图,例如,数据是一组2位数的整型,高位数字为茎,低位数字为叶,在画直方图时,纵轴为茎,横轴为叶,表现为横向的直方图。
* 直方图:太熟悉了,不说了
* 二维直方图:好吧,其实就是加了一条属性,将直方图显示由长方形变成长方体,更容易发现两个属性同时出现的模式,但是也因为柱体遮挡,观察不便。
* 盒状图:感觉是直方图的变形啊,直方图是将数据的多个区间用多个长方形展示,盒状图是将数据的几个重要值用一个长方形展示,这几个值分别是(10%、25%、50%、75%、90%百分位数)。
* 饼图:也很熟悉吧,不说
* 散布图:以二维简单说就是在一个平面上根据两个属性来描点,以此来观察两个属性的相关程度和两个属性能否将数据分成两个或多个类。
* 等高线图:学过地理的都知道
* 曲面图:学过高数的都知道
* 矢量场图:学过物理的都知道
* 星形图:一个点引生出几条线,一个属性一条线,然后将线的顶点连线,哈哈,一个星星(尴尬),可以用于快速比较具有少量数据的对象。

3-可视化原则(搬运工):
* 理解:图形能否透彻地理解变量之间的关系。
* 清晰性:最重要的元素或关系在视觉上突出吗?
* 一致性:与以前解释图形的标记、符号、特征一致吗?(自成一派好像也没什么关系)
* 有效性:用尽可能简单地图形来描绘复杂关系的能力,图形元素的使用经济吗?

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值