认识数据分析
数据分析概念
用适当分析方法对手机来的大量数据进行分析,提取有用信息并形成结论,对数据研究概括的过程。
广义数据分析是依据是一定的目标,通过统计分析、聚类、分类等方法发现大量数据中的目标所银行信息的过程。包括狭义数据分析和数据挖掘。
数据分析流程
- 需求分析:从用户提出的需求出发,挖掘意图,转化为产品需求;
- 数据获取:根据需求分析的结构提取、数据收集。获取的数据主要有两种网络数据和本地数据;
- 数据预处理:对数据进行数据合并、数据清洗、数据标准化和数据变换等操作,并将数据用于分析与建模的过程;
- 分析与建模:通过对比、分组分析、交叉分析、回归分析等方法,以及只能推荐、关联孤噩、分类模型、聚类模型等模型与算法,发现数据中有的价值信息,并得出结论;
- 模型评价与优化:对建立的一个或多个模型,据其类型使用不同指标评价模型性能优劣;
- 部署:将数据分析结果与结论应用之实际生产系统。
数据分析应用场景(常用7类)
- 客户分析:根据客户的基本信息进行商业行为分析;
- 营销分析:竞争产品分析;
- 社交媒体分析:以不同社交媒体生成的内容,实现不同的用户分析等;
- 网络安全:预先快速识别网络攻击;
- 设备管理:建立设备管理模型,预测设备故障合理安排预防性维护;
- 交通物流分析:使用数据构建交通状况预测模型;
- 欺诈行为检测:识别潜在欺诈交易。
熟悉Python数据分析工具
Python进行数据分析优势
- 语法简单精练;
- 大量功能强大的库;
- 功能强大;
- 适用于研究和模型构建,且适用于构建生产系统;
- 一门胶水语言,能以多种方式与其他语言组件“粘”在一起。
7个Python数据分析常用库
- Numpy: Numerical Python的缩写,是一个Python科学计算的基础库。
- 快速高效的多维数组对象ndarray;
- 对数组进行元素级计算和直接对数组进行数学运算的函数;
- 读写硬盘上基于数组的数据集的工具;
- 线性代数运算、傅里叶变换和随机数生成等功能;
- 将C、C++、Fortran代码集成到Python项目的工具。
- Scipy:基于Python的开源库,专门解决科学计算各种标准问题的模块集合;
- pandas: Python数据的分析核心库。提供索引,以便完成重塑、切片与切块、聚合和选取数据子集等操作。
- Matplotlib:绘制数据图表的工具,主要用于绘制2D图形,直方图、散点图、功率图谱、条形图、柱状图等。提供了pylab模块,以便快速计算绘图。
- seaborn:基于Matplotlib的数据可视化Python库;
- pyecharts:可以展示动态交互图,以便展示数据;
- scikit-learn:有效数据挖掘和数据分析工具,可反复使用。
课后练习
选择题
(1)下面关于数据分析说法正确的是( )
A.数据分析是数学、统计学理论结合科学的统计分析方法
B. 数据分析是一种数学分析方法
C. 数据分析是统计学分析方法
D. 数据分析是大数据分析方法
(2)下列关于数据分析的描述,说法错误的是( )
A.模型优化步骤可以与分析和建模步骤同步进行
B. 数据分析过程中最核心的步骤是分析与建模
C.数据分析时只能够使用数值型数据
D.广义的数据分析包括狭义数据分析和数据挖掘
(3)下列关于NumPy的说法错误的是( )
A. NumPy可快速高效处理多维数组
B. NumPy 可提供在算法之间传递数据的容器
C. NumPy可实现线性代数运算、傅里叶变换和随机数生成
D. NumPy不具备将C++代码继承到Python的功能
(4)下列关于pandas说法错误的是( )
A. pandas是Python的数据分析核心库
B. pandas能够快捷处理结构化数据
C. pandas没有NumPy的高性能数字计算功能
D. pandas提供复杂精细的索引功能
(5)下列不属于数据分析的应用场景的是
A. 一周天气预测
B. 合理预测航班座位需求数量
C. 为用户提供个性化服务
D. 某人一生的命运预测
(6)下列不属于Python优势的是( )
A.语法简洁,程序开发速度快
B.入门简单,功能强大
C.程序的运行速度在所有计算机语言的程序中最快
D.开源,可以自由阅读源代码并对其进行改动
(7)下列关于Jupyter Notebook界面构成说法错误的是( )
A. Notebook 主要由两种形式的单元构成
B. Jupyter Notebook 中的代码单元是读者编写代码的地方
C. Jupyter Notebook 编辑界面有两种编辑模式
D. Jupyter Notebook 可以将文件分享给他人
(8)下列关于Python数据分析常用库的描述错误的是( )
A. NumPy不能使用线上安装的方式进行安装
B. SciPy主要用于解决科学计算中的各种标准问题
C. pandas能够实现对数据的整理工作
D. scikit-learm是复杂有效的数据分析工具
(9)以下选项中关于Anaconda描述错误的是( )
A. Anaconda支持Linux、Windows系统
B. Anaconda 支持并集成了800多个第三方库
C. Anaconda不是一个集成开发环境
D. Anaconda是免费的,适合数据分析相关工作人员安装使用
答案:ACDCDCDAC
笔记内容取自:《Python数据分析与应用(第二版)(微课版)》