- 博客(21)
- 资源 (2)
- 收藏
- 关注
原创 PCA主成分分析
PCA主要是用于发现原始数据集中的属性之间不可见的关系和相关性。高度相关的属性是非常相似且多余的。PCA可删除冗余的属性。PCA另一个作用是在不影响重要信息的情况下降低数据的维度。在scikit-learn中也有现成的PCA,咱们直接调用也是可以的。无监督学习是通过观察来学习,没有一个明确的标签来定义。(3)将特征向量矩阵与原始数据集相乘,得到主成分矩阵。(2)找到相关或协方差矩阵的特征值和特征向量。(1)计算一个给定数据集的相关或协方差矩阵。
2024-12-13 16:41:27
121
原创 协整性检验
这里主要讨论在检验时间序列的相关性中的一个重要指标,协整性是两个时间序列的线性组合的平稳行为。举个例子,一个人和他的狗出去散步,通过相关性能知道它们是否在向同一个方向走,通过协整能知道这个人和他的狗之间的距离随时间的变化。ADF 检验能检测时间序列中的单位根,确定时间序列的平稳性。做个实验,模拟生成一组正弦波,并计算正弦与自身的协整关系,然后加入噪音再看能否通过协整检验。可以看出,在加入噪音后就不能通过协整性检验了。
2024-12-13 16:02:13
171
原创 检验数据是否服从正态分布
在数据分析过程中,对分布的检验也是很重要的一步,那么如何检验数据是否服从正态分布呢?常见的方法有:绘图检验(绘制直方图、QQ图)、Shapiro-Wilk检验、Kolmogorov-Smirnov检验、Anderson-Darling检验和D'Agostino-Pearsons检验,可以进行正态性检验。
2024-12-13 15:03:19
1151
原创 NumPy库生成概率分布
常见的概率分布有正态分布,此外还有刻画独立重复性试验的二项分布、以及刻画小概率事件的泊松分布等。NumPy库中的random下的normal()函数常用于服从正态分布的样本生成,binomial()函数根据给定参数的二项分布来生成样本,possion()函数根据给定参数生成样本。
2024-12-13 11:59:24
439
原创 NumPy拟合多项式
NumPy库提供的polyfit()函数可使用最小二乘法生成多项式,这个函数将x坐标、y坐标和度数最为参数,并返回一个多项式系数的列表。NumPy库提供的polyval()函数可用来计算给定多项式的值,这个函数接收多项式系数和点的数组,并返回一个多项式系数的列表。下面通过随机生成两组随机数,然后通过多项式来拟合这两组数组,并绘制图像。多项式函数有线性函数、二次函数、三次函数和四次函数。
2024-12-12 22:36:17
222
原创 python实现非参数检验
如果样本不服从正态分布,是一种未知分布的情况下,可以采用非参数检验来进行评估。类似的,也有非参数检验下的单样本检验、双样本检验、配对样本检验和单因素方差分析类似的非参检验版本。
2024-12-12 18:40:06
409
原创 python实现参数检验
统计检验在传统的统计中有很重要的角色,假设是推理统计学的核心。参数检验则是基本的统计分布的基本假设。常见的参数检验有t检验和方差分析。
2024-12-12 17:43:34
404
原创 pandas处理日期
其中freq频率可以有多个可选值,B为工作日频率,W为周频率,H为小时频率,M为分钟频率,S为秒频率,L表示毫秒频率,U为微秒频率。在python中对日期的处理是非常常见的工作,pandas库中提供了日期相关的函数,可以对于时间序列数据进行重采样和日期运算操作。2.to_datetime()将时间戳字符串转换为日期和时间。
2024-12-12 16:25:40
176
原创 DataFrame的groupby和pivot_table
总结一下,使用groupby()时需要想明白针对哪一列分组,针对哪一列数据计算聚合值;使用pivot_table()时需要想明白表格最终呈现出来的样子,横标签为哪一列,纵标签为哪一列,以此为最基础的理解然后展开更为复杂的分析结果。例如上述例子中,如果我们有多次数学和英语测试的分数,想看每个同学每门科目下的最好的分数,就需要使用数据透视表来进行聚合分组。在数据分析的过程中,少不了对DataFrame的列进行聚合分组,如求均值、最大值、最小值、计数、求和等。
2024-12-12 16:10:23
161
原创 创建DataFrame对象
因为DataFrame的单独一列为Series对象,所以创建一个Series对象的方法实际上可以推广创建DataFrame对象。3.此外,通过pd_read***()等系列函数,针对数据源类型的不同读取进来的对象都会成为DataFrame对象。DataFrame对象是我们数据分析中常用的对象,理解它的创建方式可以对它的特性有进一步的了解。3.创建字典来合并多个series对象从而创建一个DataFrame对象。给这个空的DataFrame对象填充数据有很多种方式。我们先创建一个空的DataFrame对象。
2024-12-12 15:19:24
304
原创 NumPy数组的拆分
NumPy数组可以拆分成多个子数组,子数组的大小形状相同。分为水平拆分、垂直拆分、深度拆分。同样的,也可直接使用split()函数定义axis的方式来完成以上两种方式的拆分。hsplit()将数组按水平方向拆分成N个相同的子数组。vsplit()将数组按垂直方向拆分成N个相同的子数组。
2024-12-12 14:16:05
139
原创 NumPy数组的堆叠
数组的堆叠有不同的类型,分为水平堆叠、垂直堆叠、深度堆叠、列堆叠、行堆叠。两种方式:hstack()或concatenate()两种方式:vstack()或concatenate()4.列堆叠:针对一维数组来讨论,一维数组的深度堆叠。5.行堆叠:针对一维数组讨论,一维数组的纵向堆叠。3.深度堆叠:增加一个维度扩展。1.水平堆叠:即横向扩展。2.垂直堆叠:即纵向扩展。
2024-12-12 14:05:42
180
原创 NumPy数组的操作
与flatten()功能类似,也是将一个n维数组转换成一维数组。两者的区别是flatten()返回的是实际数组,而ravel()返回的是对原始数组的引用,因此执行速度会更快。数组常见的操作包括:reshape(),flatten(),ravel(),transpose(),resize()。与reshape类似,但是会改变原始数组的形状。将二维数组的行转列、列转行。
2024-12-12 13:46:43
167
原创 Jupyter Notebook的扩展
本文章介绍了首次安装jupyter notebook中可选择安装的扩展及其简介,可以根据自己的需求选择安装合适的拓展提升使用jupyter的感受。
2024-12-12 12:27:30
475
原创 mac下搭建hadoop完全分布式集群
环境要求:MacOS Big Sur 11.5.2 Parallel Desktop 17 Pro Edition FinalShell具体步骤:1.PD 下载 unbuntu linux 安装,安装完毕后进入终端2.进行 hostname 的设置(永久更改主机名的方式):sudo gedit /etc/hostname 打开文件后进行修改,改为 hadoop01 确保防火墙关闭:sudo ufw status如果是 inactive 说明关闭,如果不是则 sudo ufw disab
2021-08-28 16:17:52
2132
原创 信贷系统搭建——实现登录界面与验证
文章目录前言一、问题描述1.1权限管理1.2业务管理1.3模型管理1.4案例管理二、实现步骤1.构建数据库和xlsx的读入2.登陆界面2.1 初始化窗体2.2 创建窗体背景以及布局2.3 创建登录函数界面总结前言想试着用python做个端到端的开发,从后台数据库构建到前端系统界面的实现,并且后期加入模型预测和数据分析的模块,同样在tkinter里面进行实现。虽然treeview我还在继续摸索和学习中,确实对我这种前端小白很不友好,不过想到能打通这个障碍做一个完完整整的系统就很开心。一、问题描..
2021-04-15 22:10:39
1519
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人