文章目录
第一次读本书的时候,因为有大学课程的基础,更关注于技术性的内容和理解,而忽略了看似简单的基础知识。实际上这应该是入门新手的通病,总是着眼于实用性内容,而忽略基础知识。虽然这样做有助于维持学习兴趣,帮助新人坚持到入门,然后在实践之中反过来学习基础知识。但是最好在第一次学习就能认识到基础知识的重要性,并且尽量掌握。最好的办法就是做习题。
最初是为了学习数据分析,然而当业内人士说数据分析最重要的知识是‘描述统计学’,我记忆中却是将其归为显浅知识,囫囵吞枣。
第1章 数据与统计资料
1.1 统计学在商务经济中的应用
会计、财务、市场营销、生产、经济、信息系统
1.2 数据
数据、数据集、个体、变量、观测值、分类型数据、分类变量、数量型数据、数量变量、截面数据、时间序列数据
**1.2.2 测量尺度**
名义尺度、顺序尺度、间隔尺度、比率尺度
按顺序层层包含
其中,顺序尺度
加减无意义,间隔尺度
乘除无意义,只有间隔尺度、比例尺度
有计量单位 测量尺度
1.3 数据来源
来源有:现有来源、观测性研究、实验,需要注意:时间与成本问题、数据采集误差
1.4 描述统计
将数据以表格、图形或数值形式汇总
的统计方法
1.5 统计推断
总体、样本、普查、抽样调查
统计学的一个主要贡献就是利用样本数据对总体特征进行估计和假设检验,即统计推断
1.6 逻辑分析方法
逻辑分析方法包括:
描述性分析
对过去数据的分析、BI、或复盘
预测性分析
预测,或指出变量之间的影响
规范性分析
产生一个最佳行动过程的分析技术集合,即在实际条件约束情况下的行动指导
1.7 大数据与数据挖掘
大数据
容量(volume)、速度(velocity)、种类(variety),3V
数据挖掘
data mining,从庞大的数据库中自动
提取预测性
的信息
1.8 计算机与统计分析
1.9 统计实践的道德准则
统计是搜集、分析、表述、和解析数据的艺术和科学
第2章 描述统计学1:表格法和图形法
2.1 汇总分类变量的数据
频数分布、相对频数分布、百分比频数分布
条形图及样例(bar chart)
条形图(bar chat)
描述:频数分布、相对频数分布、百分比频数分布,分类变量的条形图,应该有一定的间隔
matplotlib.bar(有样例) 基本用法:
from matplotlib import pyplot as plt
x,y,x2,y2= [5,8,10] ,[12,16,6],[6,9,11] ,[6,15,7]
plt.bar(x, y, align = 'center')
plt.bar(x2, y2, color = 'g', align = 'center')
plt.title('Bar graph')
plt.ylabel('Y axis')
plt.xlabel('X axis')
plt.show()
极坐标条形图:
import numpy as np
import matplotlib.pyplot as plt
np.random.seed(19680801)
N = 20
theta = np.linspace(0.0, 2 * np.pi, N, endpoint=False)
radii = 10 * np.random.rand(N)
width = np.pi / 4 * np.random.rand(N)
colors = plt.cm.viridis(radii / 10.)
ax = plt.subplot(111, projection='polar')
ax.bar(theta, radii, width=width, bottom=0.0, color=colors, alpha=0.5)
plt.show()
seaborn.barplot(有样例)就简单多了:
ax = sns.barplot(x="day", y="total_bill", hue="sex", data=tips)
饼形图及样例(pie chart)
饼形图(pie chat)
描述:相对频数分布、百分比频数分布(相对角度差异,人更能判断长度间的差异,所以最好标注比例)
matplotlib.pyplot.pie(有样例),个人觉得不错的3各样例(后附代码):
import matplotlib.pyplot as plt
labels = 'Frogs', 'Hogs', 'Dogs', 'Logs'
sizes = [15, 30, 45, 10]
explode = (0, 0.1, 0, 0) # only "explode" the 2nd slice (i.e. 'Hogs')
fig1, ax1 = plt.subplots()
ax1.pie(sizes, explode=explode, labels=labels, autopct='%1.1f%%',
shadow=True, startangle=90)
ax1.axis('equal') # Equal aspect ratio ensures that pie is drawn as a circle.
plt.show()
import numpy as np
import matplotlib.pyplot as plt
fig, ax = plt.subplots(figsize=(6, 3), subplot_kw=dict(aspect="equal"))
recipe = ["375 g flour","75 g sugar","250 g butter","300 g berries"]
data = [float(x.split()[0]) for x in recipe]
ingredients = [x.split()[-1] for x in recipe]
def func(pct, allvals):
absolute = int(pct/100.*np.sum(allvals))
return "{:.1f}%\n({:d} g)".format(pct, absolute)
wedges, texts, autotexts = ax.pie(data, autopct=lambda pct: func(pct, data),
textprops=dict(color="w"))
ax.legend(wedges, ingredients,
title=