自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 收藏
  • 关注

原创 了解汇总函数 grouping sets

允许在单个查询中同时计算多个分组组合的聚合结果,避免重复查询。的结果中,未被包含在分组中的列会显示为。为了更清晰地表示“所有值”,可以用。如果需要区分原始数据中的。

2025-12-10 16:41:16 262

原创 置信水平与拒绝域&置信区间与P值 单个总体均值检验 两个正态总体均值差的检验

举例如下:单边检验:

2025-11-21 17:29:31 402

原创 假设性检验

2025-10-21 17:50:24 362

原创 GMV持续下架分析

2025-10-17 18:21:59 117

原创 统计学—参数估计

参数估计是通过样本统计量推断总体参数的过程。常用统计量包括均值、方差等。抽样分布涉及正态分布、t分布和卡方分布三种主要类型。估计方法分为点估计和区间估计两类。大数定律阐明样本均值趋近总体均值,中心极限定理则说明样本均值的分布趋近正态分布。置信水平表示参数落在置信区间内的概率,如95%置信水平表示有95%的把握包含真实参数。这些概念构成了统计推断的基础框架。

2025-09-10 18:12:07 174

原创 统计学-随机变量

本文系统介绍了随机变量的主要类型及其分布特征。离散型随机变量部分重点讲解了二项分布和泊松分布的应用场景;连续型随机变量部分阐述了均匀分布和正态分布的特点。同时探讨了随机变量的数学特征,并对分布类型进行了总结。最后,还介绍了多维随机变量的联合分布概念。全文内容涵盖了概率论中最基础的随机变量类型及其重要性质。

2025-08-20 17:46:18 245

原创 随机事件-概率

概率论核心概念包括:概率取值0到1;加法法则计算并集概率;互斥事件不同时发生(P(AB)=0);独立事件互不影响(P(AB)=P(A)P(B));非独立事件存在条件影响(P(AB)=P(B|A)P(A));条件概率反映事件关联性;全概率求不同条件下的总和;贝叶斯公式描述条件概率关系(P(A|B)=P(AB)/P(A))。这些原理构成了概率计算的基础框架。

2025-08-18 17:43:54 275

原创 电商数据分析-用户会员

线下NPS、全渠道售后满意度、线上NPS、云仓投诉率、全渠道会员体验、FFD综合满意度、KPI总览、官网投诉率、收银满意度、停车场满意度、试吃满意度、友好服务满意度。NPS分数、鲜食质量、试吃试用、洗手间卫生、商品总满意度、退换货总满意度。【来自不同反馈渠道的顾客/会员声音】

2025-08-05 15:40:30 366

原创 Hive-查询-Join

语法特点:使用JOIN或INNER JOIN关键字,表名后可加别名简化查询,如FROM emp e JOIN dept d或FROM emp AS e INNER JOIN dept AS d。定义:当表A(m行)和表B(n行)进行连接操作时,若没有有效连接条件,表A的每一行都会与表B的每一行进行组合,产生m×n行的结果集。注意事项:连接n个表至少需要n-1个连接条件,如连接三个表需要两个连接条件。应用场景:当分析需求需要同时使用多张表的数据时使用,如计算跨表指标。

2025-07-23 20:45:05 966

原创 Hive-查询-having

基本语法:SELECT job, count(*) FROM emp GROUP BY job;执行结果:返回每个job对应的count(*)值,如研发3人、行政4人等。新需求引出:需要筛选出员工人数≥2的岗位,这属于对分组结果的二次过滤。结果验证:最终只显示人数≥2的岗位记录(如研发3人、行政4人等)执行原理:先完成分组聚合计算,再将结果作为临时表进行条件过滤。语法要点:必须给子查询命名别名,否则会报语法错误。用于统计每个岗位的员工人数。

2025-07-17 20:28:47 391

原创 Hive-查询-分组Group By

基本概念:Group By语句通常与聚合函数配合使用,按照一个或多个列对结果进行分组,然后对每个组执行聚合操作。结果特点:返回行数等于分组数量,每组对应一行结果。1. Group By语句。2. 分组聚合的注意事项。

2025-07-17 20:15:48 376

原创 Hive-基础查询

执行原理:在MapReduce框架下,先通过Map阶段读取数据,再通过Reduce阶段进行计数汇总。作用:将MapReduce任务运行在单个节点的单个进程中,提高小数据量测试效率。实现方法:使用select count(*) from omp统计总行数。特点:无论传入多少列,count统计的都是行数而非列数。语法:select count(*) from 表名。参数:可以传入星号*表示所有列,也可以指定特定列名。特点:聚合函数将多行数据汇总计算后返回单个值。作用:限制返回结果的行数。

2025-07-15 17:08:24 505

原创 Hive架构原理

典型示例: 记录test表的存储路径为hdfs: / / namenode:8020 / user / hive /warehouse / test。管理内容: 存储数据库、表结构(字段名/类型)、表HDFS路径等元信息。协议支持: 同时兼容Java(JBDC)和其他语言(ODBC)客户端。生产推荐: MySQL关系型数据库(支持多会话并发访问)架构特点: 仅提供访问接口,不负责实际存储(解耦设计)默认存储: 使用嵌入式Derby数据库(单会话限制)功能定位: 专门提供元数据访问接口的服务组件。

2025-06-25 21:29:01 399

原创 了解一下什么是Hive

由Facebook开源,是基于Hadoop的数据仓库工具。可以将结构化数据文件映射为一张表,并提供类SQL查询功能。Hive是一个Hadoop客户端,用于将HQL(Hive SQL)转化为Mapreduce程序。主要用于海量数据的分析和计算。

2025-06-24 20:34:13 172

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除