Ziss94-优快云博客

原创了解汇总函数 grouping sets

允许在单个查询中同时计算多个分组组合的聚合结果，避免重复查询。的结果中，未被包含在分组中的列会显示为。为了更清晰地表示“所有值”，可以用。如果需要区分原始数据中的。

2025-12-10 16:41:16 262

原创置信水平与拒绝域&置信区间与P值单个总体均值检验两个正态总体均值差的检验

举例如下：单边检验：

2025-11-21 17:29:31 402

原创统计学—参数估计

参数估计是通过样本统计量推断总体参数的过程。常用统计量包括均值、方差等。抽样分布涉及正态分布、t分布和卡方分布三种主要类型。估计方法分为点估计和区间估计两类。大数定律阐明样本均值趋近总体均值，中心极限定理则说明样本均值的分布趋近正态分布。置信水平表示参数落在置信区间内的概率，如95%置信水平表示有95%的把握包含真实参数。这些概念构成了统计推断的基础框架。

2025-09-10 18:12:07 174

原创统计学-随机变量

本文系统介绍了随机变量的主要类型及其分布特征。离散型随机变量部分重点讲解了二项分布和泊松分布的应用场景；连续型随机变量部分阐述了均匀分布和正态分布的特点。同时探讨了随机变量的数学特征，并对分布类型进行了总结。最后，还介绍了多维随机变量的联合分布概念。全文内容涵盖了概率论中最基础的随机变量类型及其重要性质。

2025-08-20 17:46:18 245

原创随机事件-概率

概率论核心概念包括：概率取值0到1；加法法则计算并集概率；互斥事件不同时发生（P(AB)=0）；独立事件互不影响（P(AB)=P(A)P(B)）；非独立事件存在条件影响（P(AB)=P(B|A)P(A)）；条件概率反映事件关联性；全概率求不同条件下的总和；贝叶斯公式描述条件概率关系（P(A|B)=P(AB)/P(A)）。这些原理构成了概率计算的基础框架。

2025-08-18 17:43:54 275

原创电商数据分析-用户会员

线下NPS、全渠道售后满意度、线上NPS、云仓投诉率、全渠道会员体验、FFD综合满意度、KPI总览、官网投诉率、收银满意度、停车场满意度、试吃满意度、友好服务满意度。NPS分数、鲜食质量、试吃试用、洗手间卫生、商品总满意度、退换货总满意度。【来自不同反馈渠道的顾客/会员声音】

2025-08-05 15:40:30 366

语法特点：使用JOIN或INNER JOIN关键字，表名后可加别名简化查询，如FROM emp e JOIN dept d或FROM emp AS e INNER JOIN dept AS d。定义：当表A（m行）和表B（n行）进行连接操作时，若没有有效连接条件，表A的每一行都会与表B的每一行进行组合，产生m×n行的结果集。注意事项：连接n个表至少需要n-1个连接条件，如连接三个表需要两个连接条件。应用场景：当分析需求需要同时使用多张表的数据时使用，如计算跨表指标。

2025-07-23 20:45:05 966

原创 Hive-查询-having

基本语法：SELECT job, count(*) FROM emp GROUP BY job;执行结果：返回每个job对应的count(*)值，如研发3人、行政4人等。新需求引出：需要筛选出员工人数≥2的岗位，这属于对分组结果的二次过滤。结果验证：最终只显示人数≥2的岗位记录（如研发3人、行政4人等）执行原理：先完成分组聚合计算，再将结果作为临时表进行条件过滤。语法要点：必须给子查询命名别名，否则会报语法错误。用于统计每个岗位的员工人数。

2025-07-17 20:28:47 391

原创 Hive-查询-分组Group By

基本概念：Group By语句通常与聚合函数配合使用，按照一个或多个列对结果进行分组，然后对每个组执行聚合操作。结果特点：返回行数等于分组数量，每组对应一行结果。1. Group By语句。2. 分组聚合的注意事项。

2025-07-17 20:15:48 376

原创 Hive-基础查询

执行原理：在MapReduce框架下，先通过Map阶段读取数据，再通过Reduce阶段进行计数汇总。作用：将MapReduce任务运行在单个节点的单个进程中，提高小数据量测试效率。实现方法：使用select count(*) from omp统计总行数。特点：无论传入多少列，count统计的都是行数而非列数。语法：select count(*) from 表名。参数：可以传入星号*表示所有列，也可以指定特定列名。特点：聚合函数将多行数据汇总计算后返回单个值。作用：限制返回结果的行数。

2025-07-15 17:08:24 505

原创 Hive架构原理

典型示例: 记录test表的存储路径为hdfs: / / namenode:8020 / user / hive /warehouse / test。管理内容: 存储数据库、表结构(字段名/类型)、表HDFS路径等元信息。协议支持: 同时兼容Java(JBDC)和其他语言(ODBC)客户端。生产推荐: MySQL关系型数据库(支持多会话并发访问)架构特点: 仅提供访问接口，不负责实际存储(解耦设计)默认存储: 使用嵌入式Derby数据库(单会话限制)功能定位: 专门提供元数据访问接口的服务组件。

2025-06-25 21:29:01 399

原创了解一下什么是Hive

由Facebook开源，是基于Hadoop的数据仓库工具。可以将结构化数据文件映射为一张表，并提供类SQL查询功能。Hive是一个Hadoop客户端，用于将HQL（Hive SQL）转化为Mapreduce程序。主要用于海量数据的分析和计算。

2025-06-24 20:34:13 172

Lziss的博客