全文共6409字,预计学习时长19分钟
图源:Unsplash
“数据科学家是程序员中最擅长统计学、统计学家中最擅长编程的人。”
——乔什·威尔斯(Josh Wills)
数学很重要。
数学与我们周围的一切事物息息相关,从形状、图案、颜色到花朵中花瓣的数量。数学深深扎根于人类生活的各个方面。
数学和统计学对学习数据科学至关重要,因为这些学科构成了所有机器学习算法的基础。
成为一名数据科学家,除了对编程语言要有很好的了解,还必须要掌握机器学习算法、数据驱动方法。但数据科学并不只涉及这些领域。在本文中,您将了解数学和统计学对数据科学的重要意义以及如何将其用于建立机器学习模型。
图源:Unsplash
本文将涉及的主题列表如下:
- 统计概论
- 统计术语
- 统计类别
- 描述性分析
- R中的描述性统计
- 推断性分析
- R中的推断性统计
统计概论
成为一名成功的数据科学家,必须掌握一定的基础知识。数学和统计学是机器学习算法的基础。重要的是了解各种机器学习算法背后的技术,进而知道如何以及何时使用它们。那么统计学到底是什么?
统计学是一门与数据收集、分析、解释和表示有关的数学科学。
统计学–数据科学的数学和统计学
统计学用于处理现实世界中的复杂问题,在此基础上,数据科学家和分析师可以寻找有意义的数据趋势和变化。简而言之,统计学就是对数据进行数学计算,并从中得出有意义的结论。
可应用几种统计函数、原理和算法分析原始数据、建立统计模型并推断或预测结果。
统计学应用–数据科学的数学和统计学
统计学影响生活的各个方面,例如股票市场、生命科学、天气,零售业、保险和教育。
接下来,将讨论统计学中的基本术语。
统计学术语-数据科学中的统计学
在学习数据科学中的统计学时,应注意了解一些关键的统计术语。下面将展示一些术语:
- 总体是所收集数据的来源。
- 样本是总体的子集
- 变量是可以测量或计算的任何特征、数字或数量。变量也可以称为数据项。
- 统计参数或总体参数,也称为统计模型,是索引一系列概率分布的量。例如,总体的平均值、中位数等。
在进一步讨论统计学的具体类别之前,先来看一下分析的类型。
分析类型
对任何事件进行分析都可以选择以下两种方式之一:
分析类型–数据科学的数学和统计学
- 定量分析:定量分析或统计分析是一门收集和解读与数字和图形有关的数据以识别图案和趋势的科学。
- 定性分析:定性或非统计分析可提供一般化信息,通过使用文本、声音和其他形式的媒体都可进行此操作。
例如,如果我想从星巴克购买杯咖啡,那么就可以在小杯、中杯、大杯中选择。这是定性分析的一个例子。但是,如果一家商店每周售出70杯常规咖啡,该例子则变为定量