- 博客(14)
- 收藏
- 关注
原创 了解汇总函数 grouping sets
允许在单个查询中同时计算多个分组组合的聚合结果,避免重复查询。的结果中,未被包含在分组中的列会显示为。为了更清晰地表示“所有值”,可以用。如果需要区分原始数据中的。
2025-12-10 16:41:16
262
原创 统计学—参数估计
参数估计是通过样本统计量推断总体参数的过程。常用统计量包括均值、方差等。抽样分布涉及正态分布、t分布和卡方分布三种主要类型。估计方法分为点估计和区间估计两类。大数定律阐明样本均值趋近总体均值,中心极限定理则说明样本均值的分布趋近正态分布。置信水平表示参数落在置信区间内的概率,如95%置信水平表示有95%的把握包含真实参数。这些概念构成了统计推断的基础框架。
2025-09-10 18:12:07
174
原创 统计学-随机变量
本文系统介绍了随机变量的主要类型及其分布特征。离散型随机变量部分重点讲解了二项分布和泊松分布的应用场景;连续型随机变量部分阐述了均匀分布和正态分布的特点。同时探讨了随机变量的数学特征,并对分布类型进行了总结。最后,还介绍了多维随机变量的联合分布概念。全文内容涵盖了概率论中最基础的随机变量类型及其重要性质。
2025-08-20 17:46:18
245
原创 随机事件-概率
概率论核心概念包括:概率取值0到1;加法法则计算并集概率;互斥事件不同时发生(P(AB)=0);独立事件互不影响(P(AB)=P(A)P(B));非独立事件存在条件影响(P(AB)=P(B|A)P(A));条件概率反映事件关联性;全概率求不同条件下的总和;贝叶斯公式描述条件概率关系(P(A|B)=P(AB)/P(A))。这些原理构成了概率计算的基础框架。
2025-08-18 17:43:54
275
原创 电商数据分析-用户会员
线下NPS、全渠道售后满意度、线上NPS、云仓投诉率、全渠道会员体验、FFD综合满意度、KPI总览、官网投诉率、收银满意度、停车场满意度、试吃满意度、友好服务满意度。NPS分数、鲜食质量、试吃试用、洗手间卫生、商品总满意度、退换货总满意度。【来自不同反馈渠道的顾客/会员声音】
2025-08-05 15:40:30
366
原创 Hive-查询-Join
语法特点:使用JOIN或INNER JOIN关键字,表名后可加别名简化查询,如FROM emp e JOIN dept d或FROM emp AS e INNER JOIN dept AS d。定义:当表A(m行)和表B(n行)进行连接操作时,若没有有效连接条件,表A的每一行都会与表B的每一行进行组合,产生m×n行的结果集。注意事项:连接n个表至少需要n-1个连接条件,如连接三个表需要两个连接条件。应用场景:当分析需求需要同时使用多张表的数据时使用,如计算跨表指标。
2025-07-23 20:45:05
966
原创 Hive-查询-having
基本语法:SELECT job, count(*) FROM emp GROUP BY job;执行结果:返回每个job对应的count(*)值,如研发3人、行政4人等。新需求引出:需要筛选出员工人数≥2的岗位,这属于对分组结果的二次过滤。结果验证:最终只显示人数≥2的岗位记录(如研发3人、行政4人等)执行原理:先完成分组聚合计算,再将结果作为临时表进行条件过滤。语法要点:必须给子查询命名别名,否则会报语法错误。用于统计每个岗位的员工人数。
2025-07-17 20:28:47
391
原创 Hive-查询-分组Group By
基本概念:Group By语句通常与聚合函数配合使用,按照一个或多个列对结果进行分组,然后对每个组执行聚合操作。结果特点:返回行数等于分组数量,每组对应一行结果。1. Group By语句。2. 分组聚合的注意事项。
2025-07-17 20:15:48
376
原创 Hive-基础查询
执行原理:在MapReduce框架下,先通过Map阶段读取数据,再通过Reduce阶段进行计数汇总。作用:将MapReduce任务运行在单个节点的单个进程中,提高小数据量测试效率。实现方法:使用select count(*) from omp统计总行数。特点:无论传入多少列,count统计的都是行数而非列数。语法:select count(*) from 表名。参数:可以传入星号*表示所有列,也可以指定特定列名。特点:聚合函数将多行数据汇总计算后返回单个值。作用:限制返回结果的行数。
2025-07-15 17:08:24
505
原创 Hive架构原理
典型示例: 记录test表的存储路径为hdfs: / / namenode:8020 / user / hive /warehouse / test。管理内容: 存储数据库、表结构(字段名/类型)、表HDFS路径等元信息。协议支持: 同时兼容Java(JBDC)和其他语言(ODBC)客户端。生产推荐: MySQL关系型数据库(支持多会话并发访问)架构特点: 仅提供访问接口,不负责实际存储(解耦设计)默认存储: 使用嵌入式Derby数据库(单会话限制)功能定位: 专门提供元数据访问接口的服务组件。
2025-06-25 21:29:01
399
原创 了解一下什么是Hive
由Facebook开源,是基于Hadoop的数据仓库工具。可以将结构化数据文件映射为一张表,并提供类SQL查询功能。Hive是一个Hadoop客户端,用于将HQL(Hive SQL)转化为Mapreduce程序。主要用于海量数据的分析和计算。
2025-06-24 20:34:13
172
空空如也
DBever里面的转置快捷键是什么?
2025-09-01
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅