【R语言学习笔记】二、数据可视化

数据科学家所需要具备的知识与技能
Hacking skills
Math&StatisticsKnowledge
SubstantiveExpertise
* 完整的数据分析流程 *

  1. 定义研究问题
    定义理想的数据集
    确定能够获取什么数据
    获取数据清理数据
  2. 探索性分析(数据可视化)
    统计分析、建模(机器学习)等
  3. 解释/交流结果(数据可视化)
    挑战结果
    书写报告(Reproducible原则)
    ## 数据基础 ##
    观测、变量、数据矩阵
    变量的类型
    数值型 连续、离散
    分类 有序、无序
    变量间的关系

数值变量的特征和可视化
集中趋势的测量 均值(mean)、中位数(median)、众数(mode)
分散趋势 值域、方差、标准差、四分位距
一个变量的可视化
–柱状图(histogram)、点图(dot plot)
–箱图(box plot)

两个变量的关系
–散点图(scatter plot)方向、形状、强度、极端值

分类变量的特征和可视化
–频率表(frequency table)、条形图(bar plot)
两个分类变量的关系
–关联表(contingency table)、相对频率表(relative frequencies)
–分段条形图、相对频率分段条形图
–马赛克图(mosaicplot)
一个分类变量和一个数值变量的关系
–并排箱图

这里写代码片

R的三大绘图系统
–基本绘图系统:图+修饰/添加=执行一系列函数
–Lattice绘图系统:一次成图,特别适用于变量间的交互
–ggplot2绘图系统

基本绘图系统(graphics包)
-plot/hist/boxplot/points/lines/text/title/axis

library(MASS)
data(airquality)
head(airquality)
hist(airquality$Wind)
hist(airquality$Wind,xlab="Wind")
boxplot(airquality$Wind,xlab="Wind",ylab="Speed(mph)")
boxplot(Wind~Month,airquality,xlab="Wind",ylab="Speed(mph)")
plot(airquality$Wind,airquality$Temp)
with(airquality,plot(Wind,Temp))#with函数下定义数据集
title(main="Wind and Temp in NYC")# 修饰,添加标题
}

with(airquality,plot(Wind,Temp,
                main=
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值