第一章 Python数据分析概述

认识数据分析

数据分析概念

        用适当分析方法对手机来的大量数据进行分析,提取有用信息并形成结论,对数据研究概括的过程。

        广义数据分析是依据是一定的目标,通过统计分析、聚类、分类等方法发现大量数据中的目标所银行信息的过程。包括狭义数据分析和数据挖掘。

数据分析流程

  1. 需求分析:从用户提出的需求出发,挖掘意图,转化为产品需求;
  2. 数据获取:根据需求分析的结构提取、数据收集。获取的数据主要有两种网络数据和本地数据;
  3. 数据预处理:对数据进行数据合并、数据清洗、数据标准化和数据变换等操作,并将数据用于分析与建模的过程;
  4. 分析与建模:通过对比、分组分析、交叉分析、回归分析等方法,以及只能推荐、关联孤噩、分类模型、聚类模型等模型与算法,发现数据中有的价值信息,并得出结论;
  5. 模型评价与优化:对建立的一个或多个模型,据其类型使用不同指标评价模型性能优劣;
  6. 部署:将数据分析结果与结论应用之实际生产系统。

数据分析应用场景(常用7类)

  1. 客户分析:根据客户的基本信息进行商业行为分析;
  2. 营销分析:竞争产品分析;
  3. 社交媒体分析:以不同社交媒体生成的内容,实现不同的用户分析等;
  4. 网络安全:预先快速识别网络攻击;
  5. 设备管理:建立设备管理模型,预测设备故障合理安排预防性维护;
  6. 交通物流分析:使用数据构建交通状况预测模型;
  7. 欺诈行为检测:识别潜在欺诈交易。

熟悉Python数据分析工具

Python进行数据分析优势

  1. 语法简单精练;
  2. 大量功能强大的库;
  3. 功能强大;
  4. 适用于研究和模型构建,且适用于构建生产系统;
  5. 一门胶水语言,能以多种方式与其他语言组件“粘”在一起。

7个Python数据分析常用库

  1. Numpy: Numerical Python的缩写,是一个Python科学计算的基础库。
    1. 快速高效的多维数组对象ndarray;
    2. 对数组进行元素级计算和直接对数组进行数学运算的函数;
    3. 读写硬盘上基于数组的数据集的工具;
    4. 线性代数运算、傅里叶变换和随机数生成等功能;
    5. 将C、C++、Fortran代码集成到Python项目的工具。
  2. Scipy:基于Python的开源库,专门解决科学计算各种标准问题的模块集合;
  3. pandas: Python数据的分析核心库。提供索引,以便完成重塑、切片与切块、聚合和选取数据子集等操作。
  4. Matplotlib:绘制数据图表的工具,主要用于绘制2D图形,直方图、散点图、功率图谱、条形图、柱状图等。提供了pylab模块,以便快速计算绘图。
  5. seaborn:基于Matplotlib的数据可视化Python库;
  6. pyecharts:可以展示动态交互图,以便展示数据;
  7. scikit-learn:有效数据挖掘和数据分析工具,可反复使用。

课后练习

选择题

(1)下面关于数据分析说法正确的是(  )

A.数据分析是数学、统计学理论结合科学的统计分析方法

B. 数据分析是一种数学分析方法

C. 数据分析是统计学分析方法

D. 数据分析是大数据分析方法

(2)下列关于数据分析的描述,说法错误的是(  )

A.模型优化步骤可以与分析和建模步骤同步进行

B. 数据分析过程中最核心的步骤是分析与建模

C.数据分析时只能够使用数值型数据

D.广义的数据分析包括狭义数据分析和数据挖掘

(3)下列关于NumPy的说法错误的是(  )

A. NumPy可快速高效处理多维数组

B. NumPy 可提供在算法之间传递数据的容器

C. NumPy可实现线性代数运算、傅里叶变换和随机数生成

D. NumPy不具备将C++代码继承到Python的功能

(4)下列关于pandas说法错误的是(  )

A. pandas是Python的数据分析核心库

B. pandas能够快捷处理结构化数据

C. pandas没有NumPy的高性能数字计算功能

D. pandas提供复杂精细的索引功能

(5)下列不属于数据分析的应用场景的是

A. 一周天气预测

B. 合理预测航班座位需求数量

C. 为用户提供个性化服务

D. 某人一生的命运预测

(6)下列不属于Python优势的是(  )

A.语法简洁,程序开发速度快

B.入门简单,功能强大

C.程序的运行速度在所有计算机语言的程序中最快

D.开源,可以自由阅读源代码并对其进行改动

(7)下列关于Jupyter Notebook界面构成说法错误的是(  )

A. Notebook 主要由两种形式的单元构成

B. Jupyter Notebook 中的代码单元是读者编写代码的地方

C. Jupyter Notebook 编辑界面有两种编辑模式

D. Jupyter Notebook 可以将文件分享给他人

(8)下列关于Python数据分析常用库的描述错误的是(  )

A. NumPy不能使用线上安装的方式进行安装

B. SciPy主要用于解决科学计算中的各种标准问题

C. pandas能够实现对数据的整理工作

D. scikit-learm是复杂有效的数据分析工具

(9)以下选项中关于Anaconda描述错误的是(  )

A. Anaconda支持Linux、Windows系统

B. Anaconda 支持并集成了800多个第三方库

C. Anaconda不是一个集成开发环境

D. Anaconda是免费的,适合数据分析相关工作人员安装使用

答案:ACDCDCDAC

笔记内容取自:《Python数据分析与应用(第二版)(微课版)》

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值