数据科学家所需要具备的知识与技能
Hacking skills
Math&StatisticsKnowledge
SubstantiveExpertise
* 完整的数据分析流程 *
- 定义研究问题
定义理想的数据集
确定能够获取什么数据
获取数据清理数据 - 探索性分析(数据可视化)
统计分析、建模(机器学习)等 - 解释/交流结果(数据可视化)
挑战结果
书写报告(Reproducible原则)
## 数据基础 ##
观测、变量、数据矩阵
变量的类型
数值型 连续、离散
分类 有序、无序
变量间的关系
数值变量的特征和可视化
集中趋势的测量 均值(mean)、中位数(median)、众数(mode)
分散趋势 值域、方差、标准差、四分位距
一个变量的可视化
–柱状图(histogram)、点图(dot plot)
–箱图(box plot)
两个变量的关系
–散点图(scatter plot)方向、形状、强度、极端值
分类变量的特征和可视化
–频率表(frequency table)、条形图(bar plot)
两个分类变量的关系
–关联表(contingency table)、相对频率表(relative frequencies)
–分段条形图、相对频率分段条形图
–马赛克图(mosaicplot)
一个分类变量和一个数值变量的关系
–并排箱图
这里写代码片
R的三大绘图系统
–基本绘图系统:图+修饰/添加=执行一系列函数
–Lattice绘图系统:一次成图,特别适用于变量间的交互
–ggplot2绘图系统
基本绘图系统(graphics包)
-plot/hist/boxplot/points/lines/text/title/axis
library(MASS)
data(airquality)
head(airquality)
hist(airquality$Wind)
hist(airquality$Wind,xlab="Wind")
boxplot(airquality$Wind,xlab="Wind",ylab="Speed(mph)")
boxplot(Wind~Month,airquality,xlab="Wind",ylab="Speed(mph)")
plot(airquality$Wind,airquality$Temp)
with(airquality,plot(Wind,Temp))#with函数下定义数据集
title(main="Wind and Temp in NYC")# 修饰,添加标题
}
with(airquality,plot(Wind,Temp,
main=