目录
2.1什么是数据可视化.........................................................................5
2.2 运用到的可视化函数...................................................................5
散点图: 11
- 数据简介
下表是1985年美国50个州和哥伦比亚特区公立学校中教师的人均年工资y(美元)和对学生的人均经费投入x(美元)关系表:
- 数据可视化原理
2.1什么是数据可视化
数据可视化,是关于数据视觉表现形式的科学技术研究。其中,这种数据的视觉表现形式被定义为,一种以某种概要形式抽提出来的信息,包括相应信息单位的各种属性和变量。
它是一个处于不断演变之中的概念,其边界在不断地扩大。主要指的是技术上较为高级的技术方法,而这些技术方法允许利用图形、图像处理、计算机视觉以及用户界面,通过表达、建模以及对立体、表面、属性以及动画的显示,对数据加以可视化解释。与立体建模之类的特殊技术方法相比,数据可视化所涵盖的技术方法要广泛得多。
2.2 运用到的可视化函数
(1)箱线图
箱形图经常在学术刊物中被使用,用来表示两组或多组的数值。箱子的底部和顶部分别表示第一分位数和第三分位数,而箱子内部中间的线表示中位数。值得注意的是上下的须,存在着不同的习惯用法。最常见的形式是,下面的须表示在第一分位数外1.5×IQR(四分位距)范围内的最低值,而上面的须表示在第三分位数外1.5×IQR(四分位距)范围内的最高值。离群值(在上下须之外)被单独绘制。另一个习惯用法是,须表示了整个数据的范围。
boxplot函数中的关键属性:
x:指定要绘制箱线图的数据;
notch:是否是凹口的形式展现箱线图,默认非凹口;
sym:指定异常点的形状,默认为'o'号显示;
vert:是否需要将箱线图垂直摆放,默认垂直摆放;