R语言数据基础

本文介绍了数据科学的基础概念,包括观测、变量、数据矩阵的基本定义,详细解释了变量的类型如连续变量、离散变量及分类变量,并探讨了数据集中趋势和分散趋势的测量方法。此外,还提供了数据可视化的多种方法,适用于不同类型的数据分析需求。

数据基础

author:秦景坤
date:2017-07-02
GitHub: https://github.com/Roc-J/R

  • 观测
  • 变量
  • 数据矩阵

一个数据矩阵一行是一次观测,一列是一个变量

  • 变量的类型

    • 主要是数值问题
      • 连续-可在给定区间取任意数值(无限)
      • 离散-在给定数值集合内取值(有限)
    • 分类问题(qualitative)-取值空间有限,不能进行运算
      • 无序-不可比较
      • 有序-顺序有意义
  • 变量间的关系(对应不同的可视化方法和统计分析方法)

    • 两个数值变量
    • 两个分类变量
    • 一个数值变量,一个分类变量

数值变量的特征和可视化

  • 数据集中趋势的测量(measures of center)
    • 均值(mean)、中位数(median)、众数(mode)

example:

1 9 2 8 3 9 4 5 7 6 

均值 = (1+9+2+8+3+9+4+5+7+6)/10 = 5.4
中位数 = 排序后位于正中间的一个数 或 位于正中间的两个数的均值 = 5.5
众数 = 出现次数最多的数 = 9

  • 数据分散趋势的测量(measures of spread)

    • 值域(range:max-min)、方差(variance)、标准差(standard variance)、标准差(standard variance)、四分位距(interquartile range)
  • 稳健统计量(robust statistics)

    • 是:中位数、四分位差(受极端值影响小)
    • 否:均值、标准差、值域(受极端值影响大)
  • 一个变量的可视化
    -柱状图(histogram)、点图(dot plot)(分布)
    -箱图( box plot)(中位数、分位点、极端值)

    竖着放的

    • 中位数
    • 25%分位点
    • 75%分位点
    • 四分位距IQR
    • 最左边的线是 Q1-1.5IQR
    • 最右边的线是 Q3+1.5IQR
  • 两个变量的关系

    • 散点图(scatter plot):方向、形状、强度、极端值

分类变量的特征和可视化

分类变量是不可以进行数学运算的,所以不像数值变量有平均值等的概念。

  • 一个分类变量的可视化
    -频率表(frequency table)、条形图(bar plot)

  • 两个分类变量的关系
    -关联表(contingency table)、相对频率表(relative frequencies)
    -分段条形图、相对频率分段条形图

    • 马赛克图(mosaicplot)
  • 一个分类变量、一个数值变量的关系
    -并排箱图(side-by-side box plot)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值