- 博客(88)
- 收藏
- 关注
原创 tableau之人口金字塔、漏斗图、箱线图
主要讲述的是人口金字塔图绘制以及绘制前的数据预处理,漏斗图的概念与用途以及绘制案例,箱线图概念以及绘制案例。
2025-02-24 18:40:51
809
1
原创 产品经理-竞品分析
收集好资料之后利用多种思维模型进行竞品的分析。比较法:竞品和自身有哪些优劣势竞品跟踪矩阵:跟踪竞品的发展规律,推测下一步发展计划功能拆解:把整个系统拆解成多级的功能清单需求洞察:探索功能背后的真实需求和本质需求PEST分析:从优势劣势、竞争机会等维度进行分析。
2025-01-06 22:38:01
388
原创 统计学第6天之一元线性回归
判定系数的实际意义是:在不良贷款取值的变差中,有71.16%可以由不良贷款与贷款余额之间的线性关系来解释,或者说,在不良贷款的取值的变动中,有71.16%是由贷款余额所决定的。当ρ远离0时,除非n非常大,否则r的抽样分布呈现一定的偏态。其中y是x的线性部分加上误差项,线性部分反映x的变化而引起y的变化,误差项反映的是除了线性关系之外的因素对y的影响,不能由x和y之间的线性关系揭示的变异性,对于所有的值,残差是不同的,例如对于较大的X值,相应的残差也较大,如图(b)所示,这就意味着违背了残差方差相等的假设。
2024-09-08 10:48:00
1331
原创 LaTeX各符号表示方式(持续更新~)
- "\mu":穆 miu - "\sigma":西格玛xigema - "\lambda":兰姆达或拉姆达lamuda - "\alpha":阿尔法aerfa - "\beta":贝塔beita - "\gamma":伽马 gama - "\pi":派 - "\theta":西塔或者泰塔xita - " \epsilon" -"\chi":希腊字母,读卡或者希 -"\rho":希腊字母,肉 :下标: \mu_{1} :上标: X^{2} :累加: \sum
2024-09-04 22:07:10
2149
原创 皮尔逊相关系数
皮尔逊相关系数定义为两个变量X、Y协方差和标准差的比值。标准差在皮尔逊相关系数计算公式中扮演的角色是去除量纲。反应两个变量之间的相关程度。协方差反映两个变量相关程度。协方差绝对值小于等于标准差。
2024-09-04 18:49:50
233
原创 统计学第5天之卡方检验
1、用于检验列联表中变量之间拟合优度和独立性2、检验统计量为:【fo实际频数,fe期望频数】或者表示列联表中第i行第j列类别中的实际频数,表示列联表中第i行第j列类别中的期望频数。3、统计量可以看作是检验统计量与真实值与期望值的近似程度。两者越接近,即的绝对值越小,计算出的值就越小;反之,的绝对值越大,计算出的值就越大。
2024-09-02 16:52:10
1227
原创 统计学第4天之方差分析(ANOVA)
1、检验多个总体均值是否相等,通过分析数据的误差判断各总体均值是否相等。2、研究分类型自变量对数值型因变量的影响。3、单因素方差分析:涉及一个分类的自变量。例1、某咨询公司为了研究不同类目的电商公司的服务质量,在服装类目抽取了7家公司,电子产品类目抽取了6家公司,医药类目抽取了5家公司,彩妆类目抽取了5家公司作为样本进行研究。假定他们在服务对象、服务内容、企业规模等方面基本是相同的。
2024-09-02 16:51:31
1524
原创 Pandas第1天之数据结构
Pandas 是 Python 数据分析的核心库之一,它提供了两种主要的数据结构:Series 和 DataFrame。这两种结构为数据分析、数据清洗以及数据预处理提供了极大的便利。
2024-08-16 08:18:24
239
原创 统计学第3天之单侧检验与双侧检验
如果给出了P值就不用再过多的关注α了,显著性水平由你自己定,你觉得多大显著就显著,通常P≯0.1,因此α通常取0.1、0.01、0.05,如果P值落在不同地方显著性水平不同,落在临界值附近,和落在临界值很远的地方(需要思考了为什么差别会折磨大)如果P值很小,说明此种情况发生的概率很小,如果出现了,根据小概率时间原理,有理由拒绝原假设,P值越小,拒绝原假设的理由越充分。因为P值很小的情况下,取出来的异常值的概率就越小,因此P值越小的情况下,此时取出了异常值,这是P值越小拒绝原假设H0的理由就越充分。
2024-08-14 08:23:02
1738
原创 机器学习第1天线性回归
标准正态分布是正态分布的一个标准化形式,通常用于简化问题的求解过程,在统计分析中具有重要应用。高斯分布在自然科学和社会科学中十分常见,因为许多随机变量的分布都近似是正态分布,特别是当独立随机变量的总和趋于无限时,根据中心极限定理,其分布接近正态分布。均值决定了分布的中心位置,标准差决定了分布的离散程度,即数据集中或分散的程度。正态分布是一类连续概率分布,其形状呈现为对称的钟形曲线,这种曲线被称为高斯函数或高斯钟形曲线。总结来说,所有的标准正态分布都是正态分布,但不是所有的正态分布都是标准正态分布。
2024-05-17 18:03:20
423
原创 统计学第2天之参数估计与假设检验
1、对总体参数的数值所作的一种陈述。总体参数包括总体均值、比例、方差等分析之前必须陈述2、事先对总体参数或分布形式做出某种假设,然后利用样本信息来判断原假设是否成立3、有参数假设检验和非参数假设检验4、采用逻辑上的反证法,依据统计上的小概率原理。
2024-05-16 09:11:34
829
原创 hive小技巧
判断两个数是否相等如果相等返回null值,如果不相等返回第一个值。和coalesce效果一样只不过val不是标准得函数。从一系列数中获取第一个不为null值得数。和上边的coalesce效果一样。
2024-05-16 08:16:52
276
原创 Git与Gitlab
文章对git做了一个大概的介绍,然后介绍github,gitee,gitlab代码托管平台,介绍gitlab安装部署,介绍gitlab与本地idea代码互通。
2024-05-15 08:53:17
1524
原创 HiveSQL之lateral view
lateral view是hiveQL中的一个高级功能,用于和表生成函数一起,来处理嵌套数组和结构的数据,特别是在处理复杂的数据结构如JSON或数组内嵌套数组时特别有用。它允许用户在每一行上应用TGF(表生成函数),将生成的元素作为多行返回,或者多列返回。
2024-04-08 22:17:28
738
原创 数据透视表之占比、对比与组合显示
右键----值显示方式----百分比-----选择安徽省作为基准(数据百分比都是通过和安徽除安徽得到)市的父级是省,父行百分比就是一个省是一个单位,里面每个市占比多少。右键----值显示方式----按照月份。一列、一行或者整个表作为单位1。右键--折叠--折叠整个字段。
2024-03-20 07:40:04
2226
原创 MySQL之窗口函数
窗口函数:窗口、函数(应用在窗口内的函数)窗口类似窗户、限定一个空间。那什么叫窗口呢?窗口的概念非常重要,可以理解为记录集合,窗口函数也就是在满足某种条件的记录集合上执行的特殊函数。对于每条记录都要在此窗口内执行,窗口的大小是固定的,这种属于静态窗口;不同的记录对应着不同的窗口,这种动态变化的窗口叫做滑动窗口。窗口函数的基本用法如下:函数名(开窗字段) over(子句);
2024-03-19 22:00:41
4636
1
原创 Excel之数据透视表
(1)选择要创建数据透视表的数据------插入----选择数据透视表(2)选择现有工作表然后点击目标表选择合适的位置插入。
2024-03-18 22:14:04
1426
原创 DolphinScheduler安装与配置
Apache DolphinScheduler是一个分布式、易扩展的可视化DAG工作流任务调度平台。致力于解决数据处理流程中错综复杂的依赖关系,使调度系统在数据处理流程中开箱即用。DolphinScheduler的主要角色如下:采用分布式无中心设计理念,MasterServer主要负责 DAG 任务切分、任务提交、任务监控,并同时监听其它MasterServer和WorkerServer的健康状态。也采用分布式无中心设计理念,WorkerServer主要负责任务的执行和提供日志服务。
2024-02-14 21:36:48
2456
原创 Hive on Spark配置
说明2:Hive任务最终由Spark来执行,Spark任务资源分配由Yarn来调度,该任务有可能被分配到集群的任何一个节点。所以需要将Spark的依赖上传到HDFS集群路径,这样集群中任何一个节点都能获取到。说明1:采用Spark纯净版jar包,不包含hadoop和hive相关依赖,能避免依赖冲突。1、解压spark-3.3.1-bin-without-hadoop.tgz。2、修改spark-env.sh配置文件。--Spark依赖位置(注意:端口号。--Hive执行引擎-->source 使其生效。
2024-02-14 21:21:11
1889
1
原创 Hive安装部署
4、解决日志Jar包(改成备用)冲突,进入/opt/moudle/hive/lib目录。--配置Hive保存元数据信息所需的 MySQL URL地址-->1、解压hive-3.1.3.tar.gz到/opt/module/目录下面。在$HIVE_HOME/conf目录下新建hive-site.xml。2、修改hive-3.1.3-bin.tar.gz的名称为hive。--配置Hive连接MySQL的驱动全类名-->--配置Hive连接MySQL的用户名 -->--配置Hive连接MySQL的密码 -->
2024-02-10 10:08:52
1184
原创 Kafka集群安装与部署
(2)依次在hadoop102、hadoop103、hadoop104节点上启动Kafka。(1)依次在hadoop102、hadoop103、hadoop104节点上停止Kafka。(1)在/etc/profile.d/my_env.sh文件中增加kafka环境变量配置。(1)先启动Zookeeper集群,然后启动Kafka。(3)分发环境变量文件到其他节点,并source。集群就没有办法再获取停止进程的信息,只能手动杀死。(2)刷新一下环境变量。(每个节点单独配置)(每个节点单独配置)
2024-02-10 10:06:53
1513
原创 Flume安装部署
(1)将apache-flume-1.10.1-bin.tar.gz上传到linux的/opt/software目录下。(2)解压apache-flume-1.10.1-bin.tar.gz到/opt/moudle/目录下。(3)修改apache-flume-1.10.1-bin的名称为flume。(4)修改conf目录下的log4j2.xml配置文件,配置日志文件路径。(5)分发flume(当前位置/opt/moudle/)# 引入控制台输出,方便学习查看日志。
2024-02-09 09:25:11
1412
原创 Linux上MySQL安装部署
(4)执行/opt/software/mysql/目录下install_mysql.sh。(1)卸载MySQL依赖,虽然机器上没有装MySQL,但是这一步。输入mysql -uroot -p123456。(3)切换到hadoop102的root用户。#更改密码级别并重启MySQL。将安装包上传到mysql目录。我一直是用root用户操作的。# 安装并启动MySQL。# 更改MySQL配置。(2)下载依赖并安装。
2024-02-09 09:23:41
618
原创 Zookeeper集群搭建(3台)
1、重命名/opt/module/zookeeper/conf目录下的zoo_sample.cfg为zoo.cfg。3、同步/opt/module/zookeeper目录内容到hadoop103、hadoop104。2、在/opt/module/zookeeper/zkData目录下创建一个myid的文件。1、在/opt/module/zookeeper/目录下创建zkData。1、解压Zookeeper安装包到/opt/module/目录下。切换到/opt/module目录下。
2024-02-08 08:32:35
1333
原创 Hadoop集群所有进程查看脚本
1、在/home/atguigu/bin目录下创建脚本xcall.sh。相当于在三台节点同时运行jps。2、赋予文件运行权限。
2024-02-08 08:30:19
325
原创 CentOS7搭建Hadoop集群
10、部署完成可以通过start-all.sh和stop-all.sh控制Hadoop-HA所有节点的启停。-- 配置该user(superUser)允许通过代理访问的主机节点 -->-- 把多个NameNode的地址组装成一个集群mycluster -->-- 配置该user(superUser)允许通过代理用户所属组 -->-- 配置该user(superUser)允许通过代理的用户-->-- 指定hadoop运行时产生文件的存储目录 -->-- 配置HDFS网页登录使用的静态用户为user -->
2024-02-07 09:05:42
3635
1
原创 CentOS7集群安装JDK1.8
3、分别再Hadoop102、Hadoop103、Hadoop104执行刷新配置文件。3、解压jdk的tar包到/opt/moudle目录。4、切换到/opt/moudle查看解压后的文件。2、将jdk上传到software文件夹里面。1、在虚拟机hadoop102新建两个目录。4、验证jdk是否安装成功。到此集群安装jdk完成!5、分发解压好的JDK。
2024-02-07 08:49:41
846
原创 集群分发脚本xsync
rsync是 "remote synchronization" 的简写,这个工具主要用于远程和本地系统之间同步文件和目录,优化了数据传输过程,只传输变化的部分。它被广泛应用于备份操作、镜像制作以及其他需要文件或目录同步的场景。rsync在功能丰富且高效的同时,也保证了传输安全性。
2024-02-06 08:30:18
780
原创 CentOS7集群配置免密登录
3、可以看到在家目录下面的.ssh目录中生成了两个文件,id_rsa(私钥)、id_rsa.pub(公钥)5、复制hadoop102机器的认证到其他机器上,在hadoop102上执行以下命令。4、将公钥复制到同一台机器hadoop102,7、配置成功后登录三台机器便不再需要输入密码了。文件中输入以下内容:IP hostname。至此三台虚拟机的免密登录配置完成~以下命令,执行命令后直接三次回车。6、测试是否可以免密登录。
2024-02-06 08:26:00
983
2
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人