Python数据分析小知识
Python数据分析介绍
数据分析是指用适当的分析方法对收集来的大量数据进行分析,提取有用信息和形成结论,对数据加以详细研究和概括总结的过程。
Python数据分析的优势
Python数据分析主要包含以下5个方面优势:
(1)语法简单精练。对于初学者来说,比起其他编程语言,Python更容易上手。
(2)有很多功能强大的库。结合在编程方面的强大实力,可以只使用Python这一种语言去构建以数据为中心的应用程序。
(3)功能强大。从特性观点来看,Python是一个混合体。丰富的工具集使它介于传统的脚本语言和系统语言之间。Python不仅具备所有脚本语言简单和易用的特点,还提供了编译语言所具有的高级软件工程工具。
(4)不仅适用于研究和原型构建,同时也适用于构建生产系统。研究人员和工程技术人员使用同一种编程工具,会给企业带来非常显著的组织效益,并降低企业的运营成本。
(5)Python是一门胶水语言。Python程序能够以多种方式轻易地与其他语言的组件“粘接”在一起。例如,Python的C语言API可以帮助Python程序灵活地调用C程序。这意味着用户可以根据需要给Python程序添加功能,或者在其他环境系统中使用Python。
数据分析的流程
1.需求分析
从用户提出的需求出发,挖掘用户内心的真实意图,并转化为产品需求的过程。
2.数据获取
根据需求分析的结果提取、收集数据。数据获取有网络数据、历史数据、实时数据。
3.数据预处理
包括数据合并、数据清洗(去掉重复、缺失、异常、不一致的数据)、数据标准化(去除特征间的量纲差异)、数据变换等。
4.分析与建模
对比分析、分组分析、交叉分析、回归分析等。
常用库
数据分析常用库有:numpy、scipy、pandas、matplotlib、scikit-learn、spyder 等。
import numpy as np
arr = np.random.randint(1, 10, size = 10) # 生成随机数组
arr.sort() # 直接排序
np.unique(arr) # 去重
np.sum(arr) # 求和
np.mean(arr)
np.std(arr) # 计算标准差
np.var(arr) # 计算方差
np.min(arr)
np.max(arr)
常用操作
# 数据不添加索引列,将原始数据的第一列作为索引列!!
user_log = pd.read_csv('user_log_new2.csv', sep=',',index_col=0)
# 统计某列的唯一值和出现次数
a = list(dataSetRaw['vin'].unique()) # 列出该列的唯一值
len(a) # 统计该列有多少个不一样的值
b = pd.DataFrame(dataSetRaw['vin'].value_counts()) # 统计每个唯一值出现了多少次
# 支持中文
plt.rcParams['font.sans-serif'] = ['SimHei'] # 用来正常显示中文标签
plt.rcParams['axes.unicode_minus'] = False # 用来正常显示负号
打开文件:
在Python语言中,使用 open() 打开文件的操作过程中需要注意,由于“ \ ”是字符串中的转义符,所以表示路径时,使用“ \ ”、“ / ”或“ // ”来代替“ \ ”。
有时候读取文本文件需要写上编码形式 encoding = ‘utf-8’ 或者 ‘gbk’

被折叠的 条评论
为什么被折叠?



