
数据分析
文章平均质量分 56
stitchshaw
这个作者很懒,什么都没留下…
展开
-
数据分析之数理基础与概率统计
文章目录随机误差的分布是`正态分布(高斯分布)`中心极限定理和大数定律两类错误置信区间、置信度(置信水平)协方差是啥,怎么判断协方差正负辛普森悖论的例子随机误差的分布是正态分布(高斯分布)根据中心极限定理,大量独立的随机变量之和趋向于某个稳定的分布,被称为正态分布(高斯分布)。那么大量的随机(随机就说明是独立的)误差之和就趋向于正态分布。中心极限定理和大数定律中心极限定理是说无论抽样分布(卡方、t、F)如何,均值服从正态分布。(正态分布是抽样分布的基础。三大抽样分布是从正态分布抽出的样本的分布。指的原创 2022-02-23 22:27:53 · 1244 阅读 · 0 评论 -
python对array数组(或矩阵)进行重新排序(且索引确保不同)
首先需要知道一性质:pandas的dataframe或numpy的array、matrix,都可以直接通过索引列表(重)排序。例如三维的array数组:A,A.shape=(x,y,z)。则A[index列表]重排的就是x的元素顺序。同理B.shape=(n,x,y,z),则B[index列表]重排的就是n的元素顺序。下面是一维的测试:注意:使用random.sample是为了确保生成的索引号不同。np.random好像没有这个功能。......原创 2022-02-15 17:27:02 · 3241 阅读 · 1 评论 -
Pandas方法实践-2012美国总统竞选赞助数据分析
目录1. 数据载入和总览1.1 数据载入(pd.read_csv())1.2 数据合并(pd.concat())1.3 数据预览和基本统计分析2. 数据清洗2.1 缺失值处理2.2 数据转换利用字典映射进行转换:党派分析排序:按照职业汇总对赞助总金额进行排序利用函数进行数据转换:职业与雇主信息分析2.3 数据筛选赞助金额筛选候选人筛选(O...原创 2019-08-27 15:46:13 · 1520 阅读 · 4 评论 -
python中遍历文件夹里的文件
如图所示例。只需导入os模块,如果光是单纯的读取出文件夹里所有xlsx的文件名字,则os.listdir(path)即可;可若需在接下来的步骤中打开这些xlsx文件,添加一行os.chdir(path)代码就足够,它表示改变当前工作目录path到指定的路径(意指可以打开xlsx文件操作了,赋予其操作性)...原创 2019-10-07 19:51:02 · 2794 阅读 · 2 评论