在下区区俗物-优快云博客

判定系数的实际意义是：在不良贷款取值的变差中，有71.16%可以由不良贷款与贷款余额之间的线性关系来解释，或者说，在不良贷款的取值的变动中，有71.16%是由贷款余额所决定的。当ρ远离0时，除非n非常大，否则r的抽样分布呈现一定的偏态。其中y是x的线性部分加上误差项，线性部分反映x的变化而引起y的变化，误差项反映的是除了线性关系之外的因素对y的影响，不能由x和y之间的线性关系揭示的变异性，对于所有的值，残差是不同的，例如对于较大的X值，相应的残差也较大，如图（b）所示，这就意味着违背了残差方差相等的假设。

2024-09-08 10:48:00 1640

原创 LaTeX各符号表示方式（持续更新~）

- "\mu"：穆 miu - "\sigma"：西格玛xigema - "\lambda"：兰姆达或拉姆达lamuda - "\alpha"：阿尔法aerfa - "\beta"：贝塔beita - "\gamma"：伽马 gama - "\pi"：派 - "\theta"：西塔或者泰塔xita - " \epsilon" -"\chi"：希腊字母，读卡或者希 -"\rho":希腊字母，肉 :下标： \mu_{1} :上标： X^{2} :累加： \sum

2024-09-04 22:07:10 3163

原创皮尔逊相关系数

皮尔逊相关系数定义为两个变量X、Y协方差和标准差的比值。标准差在皮尔逊相关系数计算公式中扮演的角色是去除量纲。反应两个变量之间的相关程度。协方差反映两个变量相关程度。协方差绝对值小于等于标准差。

2024-09-04 18:49:50 274

原创统计学第5天之卡方检验

1、用于检验列联表中变量之间拟合优度和独立性2、检验统计量为：【fo实际频数，fe期望频数】或者表示列联表中第i行第j列类别中的实际频数，表示列联表中第i行第j列类别中的期望频数。3、统计量可以看作是检验统计量与真实值与期望值的近似程度。两者越接近，即的绝对值越小，计算出的值就越小；反之，的绝对值越大，计算出的值就越大。

2024-09-02 16:52:10 1564

原创统计学第4天之方差分析（ANOVA）

1、检验多个总体均值是否相等，通过分析数据的误差判断各总体均值是否相等。2、研究分类型自变量对数值型因变量的影响。3、单因素方差分析：涉及一个分类的自变量。例1、某咨询公司为了研究不同类目的电商公司的服务质量，在服装类目抽取了7家公司，电子产品类目抽取了6家公司，医药类目抽取了5家公司，彩妆类目抽取了5家公司作为样本进行研究。假定他们在服务对象、服务内容、企业规模等方面基本是相同的。

2024-09-02 16:51:31 2311

原创 Pandas第1天之数据结构

Pandas 是 Python 数据分析的核心库之一，它提供了两种主要的数据结构：Series 和 DataFrame。这两种结构为数据分析、数据清洗以及数据预处理提供了极大的便利。

2024-08-16 08:18:24 317

原创统计学第3天之单侧检验与双侧检验

如果给出了P值就不用再过多的关注α了，显著性水平由你自己定，你觉得多大显著就显著，通常P≯0.1，因此α通常取0.1、0.01、0.05，如果P值落在不同地方显著性水平不同，落在临界值附近，和落在临界值很远的地方（需要思考了为什么差别会折磨大）如果P值很小，说明此种情况发生的概率很小，如果出现了，根据小概率时间原理，有理由拒绝原假设，P值越小，拒绝原假设的理由越充分。因为P值很小的情况下，取出来的异常值的概率就越小，因此P值越小的情况下，此时取出了异常值，这是P值越小拒绝原假设H0的理由就越充分。

2024-08-14 08:23:02 2945

原创机器学习第1天线性回归

标准正态分布是正态分布的一个标准化形式，通常用于简化问题的求解过程，在统计分析中具有重要应用。高斯分布在自然科学和社会科学中十分常见，因为许多随机变量的分布都近似是正态分布，特别是当独立随机变量的总和趋于无限时，根据中心极限定理，其分布接近正态分布。均值决定了分布的中心位置，标准差决定了分布的离散程度，即数据集中或分散的程度。正态分布是一类连续概率分布，其形状呈现为对称的钟形曲线，这种曲线被称为高斯函数或高斯钟形曲线。总结来说，所有的标准正态分布都是正态分布，但不是所有的正态分布都是标准正态分布。

2024-05-17 18:03:20 464

原创统计学第2天之参数估计与假设检验

1、对总体参数的数值所作的一种陈述。总体参数包括总体均值、比例、方差等分析之前必须陈述2、事先对总体参数或分布形式做出某种假设，然后利用样本信息来判断原假设是否成立3、有参数假设检验和非参数假设检验4、采用逻辑上的反证法，依据统计上的小概率原理。

2024-05-16 09:11:34 968

原创 hive小技巧

判断两个数是否相等如果相等返回null值，如果不相等返回第一个值。和coalesce效果一样只不过val不是标准得函数。从一系列数中获取第一个不为null值得数。和上边的coalesce效果一样。

2024-05-16 08:16:52 309

原创 Git与Gitlab

文章对git做了一个大概的介绍，然后介绍github,gitee,gitlab代码托管平台，介绍gitlab安装部署，介绍gitlab与本地idea代码互通。

2024-05-15 08:53:17 1728

原创 HiveSQL之lateral view

lateral view是hiveQL中的一个高级功能，用于和表生成函数一起，来处理嵌套数组和结构的数据，特别是在处理复杂的数据结构如JSON或数组内嵌套数组时特别有用。它允许用户在每一行上应用TGF（表生成函数），将生成的元素作为多行返回，或者多列返回。

2024-04-08 22:17:28 865

原创数据透视进阶：切片器关联与二次计算

右键切片器--选择报表连接。将想要连接的表关联在切片器。

2024-03-23 07:54:37 614

原创数据透视表进阶：多维数据透视表与案例演示

同比指的是：和去年比环比指的是：和上个月比数据透视表消失了：点击字段列表。

2024-03-23 07:54:08 952

原创统计学第1天描述性统计

数值会发生变化的量，特点是从一次观察到下一次观察结果呈现出差别（变化）。变量的具体取值称为变量值。

2024-03-20 22:00:01 1098

原创数据透视表之占比、对比与组合显示

右键----值显示方式----百分比-----选择安徽省作为基准（数据百分比都是通过和安徽除安徽得到）市的父级是省，父行百分比就是一个省是一个单位，里面每个市占比多少。右键----值显示方式----按照月份。一列、一行或者整个表作为单位1。右键--折叠--折叠整个字段。

2024-03-20 07:40:04 2930

原创 MySQL之窗口函数

窗口函数：窗口、函数（应用在窗口内的函数）窗口类似窗户、限定一个空间。那什么叫窗口呢？窗口的概念非常重要，可以理解为记录集合，窗口函数也就是在满足某种条件的记录集合上执行的特殊函数。对于每条记录都要在此窗口内执行，窗口的大小是固定的，这种属于静态窗口；不同的记录对应着不同的窗口，这种动态变化的窗口叫做滑动窗口。窗口函数的基本用法如下：函数名(开窗字段) over（子句）;

2024-03-19 22:00:41 4804 1

原创 Excel数据可视化

1、选中数据----点击插入----点击饼图2、更改数据标签（修改标题名直接改就行）

2024-03-18 22:26:41 446

原创 Excel之数据透视表

（1）选择要创建数据透视表的数据------插入----选择数据透视表（2）选择现有工作表然后点击目标表选择合适的位置插入。

2024-03-18 22:14:04 2004

原创 DolphinScheduler安装与配置

Apache DolphinScheduler是一个分布式、易扩展的可视化DAG工作流任务调度平台。致力于解决数据处理流程中错综复杂的依赖关系，使调度系统在数据处理流程中开箱即用。DolphinScheduler的主要角色如下：采用分布式无中心设计理念，MasterServer主要负责 DAG 任务切分、任务提交、任务监控，并同时监听其它MasterServer和WorkerServer的健康状态。也采用分布式无中心设计理念，WorkerServer主要负责任务的执行和提供日志服务。

2024-02-14 21:36:48 2897

原创 Hive on Spark配置

说明2：Hive任务最终由Spark来执行，Spark任务资源分配由Yarn来调度，该任务有可能被分配到集群的任何一个节点。所以需要将Spark的依赖上传到HDFS集群路径，这样集群中任何一个节点都能获取到。说明1：采用Spark纯净版jar包，不包含hadoop和hive相关依赖，能避免依赖冲突。1、解压spark-3.3.1-bin-without-hadoop.tgz。2、修改spark-env.sh配置文件。--Spark依赖位置（注意：端口号。--Hive执行引擎-->source 使其生效。

2024-02-14 21:21:11 2036 1

原创 Hive安装部署

4、解决日志Jar包（改成备用）冲突，进入/opt/moudle/hive/lib目录。--配置Hive保存元数据信息所需的 MySQL URL地址-->1、解压hive-3.1.3.tar.gz到/opt/module/目录下面。在$HIVE_HOME/conf目录下新建hive-site.xml。2、修改hive-3.1.3-bin.tar.gz的名称为hive。--配置Hive连接MySQL的驱动全类名-->--配置Hive连接MySQL的用户名 -->--配置Hive连接MySQL的密码 -->

2024-02-10 10:08:52 1301

原创 Kafka集群安装与部署

（2）依次在hadoop102、hadoop103、hadoop104节点上启动Kafka。（1）依次在hadoop102、hadoop103、hadoop104节点上停止Kafka。（1）在/etc/profile.d/my_env.sh文件中增加kafka环境变量配置。（1）先启动Zookeeper集群，然后启动Kafka。（3）分发环境变量文件到其他节点，并source。集群就没有办法再获取停止进程的信息，只能手动杀死。（2）刷新一下环境变量。（每个节点单独配置）（每个节点单独配置）

2024-02-10 10:06:53 1559

原创 Flume安装部署

（1）将apache-flume-1.10.1-bin.tar.gz上传到linux的/opt/software目录下。（2）解压apache-flume-1.10.1-bin.tar.gz到/opt/moudle/目录下。（3）修改apache-flume-1.10.1-bin的名称为flume。（4）修改conf目录下的log4j2.xml配置文件，配置日志文件路径。（5）分发flume（当前位置/opt/moudle/）# 引入控制台输出，方便学习查看日志。

2024-02-09 09:25:11 1484

原创 Linux上MySQL安装部署

（4）执行/opt/software/mysql/目录下install_mysql.sh。（1）卸载MySQL依赖，虽然机器上没有装MySQL，但是这一步。输入mysql -uroot -p123456。（3）切换到hadoop102的root用户。#更改密码级别并重启MySQL。将安装包上传到mysql目录。我一直是用root用户操作的。# 安装并启动MySQL。# 更改MySQL配置。（2）下载依赖并安装。

2024-02-09 09:23:41 660

原创 Zookeeper集群搭建（3台）

1、重命名/opt/module/zookeeper/conf目录下的zoo_sample.cfg为zoo.cfg。3、同步/opt/module/zookeeper目录内容到hadoop103、hadoop104。2、在/opt/module/zookeeper/zkData目录下创建一个myid的文件。1、在/opt/module/zookeeper/目录下创建zkData。1、解压Zookeeper安装包到/opt/module/目录下。切换到/opt/module目录下。

2024-02-08 08:32:35 1506

原创 Hadoop集群所有进程查看脚本

1、在/home/atguigu/bin目录下创建脚本xcall.sh。相当于在三台节点同时运行jps。2、赋予文件运行权限。

2024-02-08 08:30:19 397

原创 CentOS7搭建Hadoop集群

10、部署完成可以通过start-all.sh和stop-all.sh控制Hadoop-HA所有节点的启停。-- 配置该user(superUser)允许通过代理访问的主机节点 -->-- 把多个NameNode的地址组装成一个集群mycluster -->-- 配置该user(superUser)允许通过代理用户所属组 -->-- 配置该user(superUser)允许通过代理的用户-->-- 指定hadoop运行时产生文件的存储目录 -->-- 配置HDFS网页登录使用的静态用户为user -->

2024-02-07 09:05:42 3761 1

mysql-5.7.36-winx64.zip

空空如也