数据分析基础-统计学

  1. 变量
    我们需要了解几个名词:
    变量、常量、连续变量、离散变量、连续数据、离散数据、自变量、因变量、函数、单值函数、多值函数
    以上名词大家都比较理解,我这边就解释下什么是单值函数和多值函数:
    单值函数:若对定义域每一个自变量x,其对应的函数值f(x)是唯一的,则称f(x)是单值函数。
    多值函数:若│f(x)│=2x-1,则f(x)=±(2x-1),一个自变量x对应两个函数值。
  2. 频数分析
    数组阵列:原始数据按照数据大小升序或降序排列,最大值与最小值的差为全距;
    组距、组限、组界、组中值、直方图与频率多边形
    频率分布 = 某一组频数/总频数
    累计频数分布/累计频数表,累计频数多边形/卵形线
    累计频率分布/百分率累计频数 = 累计频数/总频数
  3. 均值、中位数、众数(集中趋势的度量)
    平均值/集中趋势的度量:趋向落在根据数值大小排列的数据的中心
    算数平均:
    算术平均
    N个数的算术平均简称均值
    加权算术平均:

在这里插入图片描述
均值、中位数和众数之间的关系:
在这里插入图片描述
几何平均G:
在这里插入图片描述
调和平均H:
在这里插入图片描述
在这里插入图片描述
均方根RMS
在这里插入图片描述

  1. 标准差和其他表示利差的度量
    离差/变差:
    数值数据围绕其平均值分布的分数与集中程度,常用的有全距、平均偏差、半内四分位数间距,10-90百分位数间距、标准差;
    全距:最大值-最小值
    平均偏差
    在这里插入图片描述
    半内四分位数间距:
    在这里插入图片描述
    10-90百分位数间距:
    在这里插入图片描述
    标准差:
    在这里插入图片描述

方差:标准差的平方
离差度量间的关系:
在这里插入图片描述
5. 矩、偏度、峰度
矩:
在这里插入图片描述
r阶中心矩:
在这里插入图片描述
(备注:关于矩这一个知识点,我其实还不能很明白的解释清楚)
偏度:分布不对称成都或偏离对称成都的反映
在这里插入图片描述
峰度:分布的陡峭程度,尖峰、扁峰、常峰态
6. 初等概率论
概率:
概率的古典定义
条件概率,独立和不独立事件
在这里插入图片描述
在这里插入图片描述
互不相容事件:两个或多个事件中,任意两个事件都不能同时发生。
在这里插入图片描述
概率分布:
离散型:离散型概率分布
连续型:概率密度函数,连续型概率分布
数学期望:在概率论和统计学中,数学期望(mean)(或均值,亦简称期望)是试验中每次可能结果的概率乘以其结果的总和,是最基本的数学特征之一。它反映随机变量平均取值的大小。大数定律规定,随着重复次数接近无穷大,数值的算术平均值几乎肯定地收敛于期望值。
7. 二项分布
在这里插入图片描述
在这里插入图片描述
正态分布:
在这里插入图片描述
在这里插入图片描述
正态分布与二项分布的关系:
在这里插入图片描述
泊松分布:
泊松分布
多项分布:
在这里插入图片描述
8. 初等抽样理论
随机样本、随机数、有放回和无放回抽样
抽样分布:
均值的抽样分布
在这里插入图片描述
标准误差:
一个统计量的抽样分布的标准差常称为该统计量的标准误差

  1. 统计估计理论
    无偏估计:如果一个统计量的抽样分布的均值等于相应的总体参数,那个这个统计量参数就是此参数的一个无偏估计量;否则,就称为有偏估计量。统计量的相应值分别称为无偏估计或有偏估计,估计量也常简称为估计。
    有效估计:如果两个统计量的抽样分布有相同的均值(或期望),那么方差较小的那个统计量称为此均值的有效估计量,另一个称为无效估计量。统计量的相应值称为有效估计或无效估计。
    在均值的所有无偏估计量中,方差最小的那个统计量常被称为此均值的最有效估计量或最优估计量。
    点估计和区间估计:如果一个数来估计总体的参数,那么这种估计叫做参数的点估计。如果给出两个数,指出参数位于其间,那么这种估计叫做参数的区间估计。
    区间估计更加精确,因为要优于点估计。

  2. 统计决策理论
    统计假设、零假设/原假设、备择假设
    假设检验、显著性检验/决策法则
    第一类和第二类错误:
    当我们拒绝了一个本应接受的假设时,我们就犯了第一类错误,反之,当我们接受了一个本应拒绝的假设时,我们就犯了第二类错误。无论是哪种情形,在判断上我们都犯了错误,做出了错误的决策。
    正态分布的检验,双边检验和单边检验,特殊检验

  3. 小样本理论
    样本容量N<30时,我们称为小样本,对小样本统计量的抽样分布的研究称之为小样本理论,得到的结论不仅适用于小样本问题,也适用于大样本问题,也称为精确抽样理论。
    (注意:这边的t分布,卡方分布,F分布都没有很清楚的解释)

  4. 曲线拟合和最小二乘法
    在这里插入图片描述
    在这里插入图片描述

概率论中的六种常用分布,即(0-1)分布、二项分布、泊松分布、均匀分布、指数分布和正态分布。
在这里插入图片描述

本书内容分为八个部分。共20章,分上、下两册,每册10章。各章均有大量习题。本书给出了大量的实际例子,这些例子涉及众多的学科和实际领域,但又不过于专门,容易理解。在大部分章节中都使用实例未引入主题,并把统计概念和这些非常实际的问题联系在一起进行讲解,深入浅出,从而可以避免许多人对统计所抱有的粗浅的感性认识,即认为统计仅仅是另一门数学课程。作者把统计数据的收集与分析过程总结成"四步法",并把"四步法"的讲解贯穿始终,利用实例逐步展开并阐明在设计调查研究或试验时所需要的统计技术和思路,然后讲解用直观、有效的"四步法"来收集并分析数据,非常利于初学者和实际工作人员抓住有关统计方法和模型的本质。书中提供了多种多样的图示,如正态概率图、盒形图、散点图、矩阵图和残差图等,通过这些图,读者可以一方面理解数据的特点和概括数据的方法,--方面进一步理解有关统计方法的基本思想和特点。作者很重视统计在解决实际问题中的作用,在全书中用许多篇幅讨论如何解释数据分析的结果,并专门用一章讲述了如何写数据分析报告。 本书适用于作为我国文科各专业的统计学引论教程。以及理工科各专业应用统计学课程的教材或教学参考书;也可作为有关方面实际工作人员的统计入门书。阅读本书不需要其他统计方面的基础,也不需要高等数学知识。 目录: 序言 第一部分引论 第一章什么是统计 1.1引言 1.2为什么学习统计 1.3当前统计的一些应用 1.4统计学家做什么 1.5质量和工序改进 1.6学生注意 1.7小结 补充练习 第二部分收集数据 第二章利用调查和科学研究来收集数据- 2.1引言 2.2调查 2.3科学研究 2.4观察研究 2.5数据整理:为概括和分析准备数据 2.6小结 第三部分概括数据 3.1引言 3.2计算器、计算机及软件系统 3.3单个变量数据的描述:图表法 3.4单个变量数据的描述:中心趋势的度量 3.5单个变虽数据的描述:变异性度量 3.6盒形图 3.7多变量数据的概括 3.8小结 重要公式 补充练习 第四部分工具和概念 第四章概率和概率分布 4.1如何应用概率进行推断 4.2确定一个事件的概率 4.3基本的事件关系和概率法则 4.4条件概率和独立性 4.5Bayes公式 4.6离散变最和连续变量 4.7离散随机变量的概率分布 4.8一个常用的离散随机变量:二项分布 4.9连续随机变量的概率分布 4.10一个常用的连续随机变量:正态分布 4.11随机抽样 4.12抽样分布 4.13二项分布的正态逼近 4.14Minitab指令 4.15小结 重要公式 补充练习 第五部分数据分析:中心值方差和比例 第五章关于总体中心值的推断 5.1引言和案例 5.2μ的估计 5.3估计μ时样本容量的选取 5.4关于μ的统计检验 5.5对于进行检验时样本容量的选取 5.6统计检验的显著性水十 5.7正态总体均值p的统计推断。未知 5.8关于中位数的推断 5.9小结 重要公式 补充练习 第六章两总体中心值的比较 6.1引言和案例 6.2关于μ1-μ2的推断:独立样本 6.3非参数推断方法:Wilcoxon秩和检验 6.4关于μ1-μ2的推断:成对数据 6.5非参数推断方法:Wilcoxon符号秩检验 6.6惟断μ1-μ2时样本容量的选取 6.7小结 重要公式 补充练习 第七章关于总体方差的推断 7.1引言和案例 7.2单个总体方差的估计和检验 7.3比较两个总体方差时的估计和检验 7.4比较多个总体方差时的检验 7.5小结 重要公式 补充练习 第八章两个以上总体的中心值的推断 8.1引言和案例 8.2两个以上总体均值的统计检验:方差分析 8.3完全随机化设计中观测值的模型 8.4方差分析条件的检查 8.5其他的分析方法:数据变换 8.6另一种非参数方法:Kruskal-Wallis检验 8.7小结 重要公式 补充练习 第九章多重比较 9.1引言和案例 9.2线性对照 9.3控制哪个错误率 9.4Fisher(费舍尔)最小显著差异法 9.5Tukey的W方法 9.6Student-Newman-Keuls方法 9.7Dunnett方法:处理组与对照组的比较 9.8Scheffe的S方法 9.9小结 重要公式 补充练习 第十章类型数据 10.1引言和案例 10.2总体比例π的推断 10.3两总体比例之差π1-π2的推断 10.4多比例的推断:卡方拟合优度检验 10.5Pokmn(泊松)分布- 10.6列联表:独立性检验和齐性检验 10.7柏关程度的度量 10.8几率和优比 10.9小结 重要公式 补充练习 第六部分数据分析:回归方法和模型的建立 第十一章线性回归和相关 11.1引言和案例 11.2估计模型中的参数 11.3回归参数的推断 11.4利用同归预测新的y值 11.5线性回归中拟合不足的考察 11.6逆回归问题(校准) 11.7相关 11.8小结 重要公式 补充练习 第十二章多元回归与一般线性模型 12.1引言和案例 12.2一般线性模型 12.3估计多元回归系数 12.4多元回归中的推断 12.5回归系数子集的检验 12.6用多元回归进行的预测 12.7比较几条回归线的斜率 12.8Logistic回归 12.9多元回归的一些理论结果(任选) 12.10小结 重要公式 补充练习 第十三章多元回归续论 13.1引言和案例 13.2变量的挑选(第一步) I3.3模型形式的确定(第二步) 13.4模型假设的检查(第三步) 13.5小结 重要公式 补充练习 第七部分试验设计与方差分析 第十四章试验和研究的设计概念 14.1引言 14.2研究的类型 14.3设计的试验:术语 14.4控制试验误差 14.5试验单元对处理的随机化 14.6确定重复试验的次数 14.7小结 第十五章标准设计的方差分析 15.1引言和案例 15.2单因子的完全随机化设计 15.3随机化完全区组设计 15.4拉丁方设计 15.5完全随机化设计中的因子处理结构 15.6随机化完全区组设计中的因子处理结构 15.7处理差异的估计和处理均值的比较 15.8小结 重要公式 补充练习 第十六章协方差分析 16.1引言和案例 16.2具有一个协变量的完全随机化设计 16.3外推问题 16.4多维协变量和更复杂的设计 16.5小结 补充练习 第十七章一些固定效应、随机效应和混合效应模型的方差分析 17.1引言和案例 17.2具有随机处理效应的单因子试验:随机效应模型 17.3随机效应模型的扩充 17.4混合效应模型 17.5计算期望均方的规则 17.6套抽样和裂区设计 17.7小结 补充练习 第十八章重复测量与交叉设计 18.1引言和案例 18.2有重复观测的单因子试验 18.3一个因子有重复观测的两因子试验 18.4交叉设计 18.5小结 补充练习 第十九章一些非平衡设计的方差分析 19.1引言和案例 19.2有一个或多个缺失观察值的随机化区组设计 19.3有缺失数据的拉丁方设计 19.4平衡不完全区组(BIB)设计 19.5小结 重要公式 补充练习 第二十章分析结果的传达和备案 20.1引言 20.2做好传达沟通工作所面临的困难 20.3传达的障碍:图形的歪曲 20.4传达的障碍:有偏抽样 20.5传达的障碍:样本容量 20.6为统计分析准备数据 20.7统计分析的指导原则和报告 20.8文档和结果的保存 20.9小结 补充练习 附录统计表 参考文献 索引 译后记
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值