大数据分析常用指标口径

本文介绍了大数据分析中常见的核心指标,包括新增用户、活跃用户、触发人数、时长及留存率。新增用户指首次使用产品的用户,活跃用户是一定时间内使用过产品的用户,触发人数是某一行为操作的人数,不计重复。时长分为使用时长分布和平均使用时长,留存率则分为新增用户留存、活跃用户留存和自定义留存。这些指标对于理解用户行为和产品性能至关重要。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

常用指标口径

1.新增用户

定义:首次使用产品的用户即为新增用户。

如何判定:在接入诸葛后,该用户第一次使用产品时,诸葛会将该用户记录下来,并将此用户定义为「新增用户」

技术判定: 对比诸葛的数据库,没有出现的cookie/设备号/账号,就是新增用户。

场景举例:JS的新增是只要打开网站就会记为新增,而app只有下载打开后才会被记为新增。

2.活跃用户

定义:使用过产品的用户

如何判定:在某段时间内使用过产品的用户被记录下来,多次启用过产品的不会重复计算

场景举例:如A公司6月23日7月4日期间的活跃用户位1890,那么就是在6月23日7月4日期间一共有1890人使用过产品,但是其中340名用户在此期间使用5次以上,但是记在计算活跃用户时不会重复计算,只会计算为1个。

3.触发人数

定义:在产品上对于某一行为的操作人数。

使用场景:如在某电商应用上,有「搜索」功能,此功能在6月1日有2309人进行过操作,那么触发人数就是2309,对于多次触发「搜索」功能的人不会重复计算。

人均触发次数
定义:在产品上对于某一行为的平均操作次数。

计算公式:人均触发次数 = 触发次数 / 触发人数

4.时长

使用时长分布
定义:使用产品的时长分布,是了解用户对产品使用情况的维度之一

分布区间:使用时长的分布区间为诸葛io根据数据情况等份划定。

平均使用时长
定义:使用应用的平均时长。

计算公式:平均使用时长 = 会话的总时长 / 会话次数

会话时长:用同一次访问内触发的最后一个事件的时间减去会话开始的时间。如果用户没有事件触发,那么时长就是1s。

5.留存/留存率

新增用户留存/留存率
定义:某段时间内的新增用户,经过一段时间后,仍然继续使用产品被称为新增留存;这部分用户占当时新增的比例就是留存率。

场景举例:某产品,1月份新增用户10000人;2月时10000人中还有8000人使用产品,则新增留存人数为8000,新增留存率为80%;3月份10000人中还有7000人使用产品,则新增留存人数为7000,新增留存率为70%。

活跃用户留存/留存率
定义:某段时间内的活跃用户,经过一段时间后,仍然继续活跃的用户被称为活跃留存;这部分活跃留存用户占当时活跃用户的比例就是活跃留存率。

场景举例:某产品,1月份的活跃用户数是10万人,2月时10万人中还有5万人活跃,则活跃留存人数为5万,活跃留存率为50%;3月份,10万人中还有4万人活跃,则活跃留存人数为4万,活跃留存率为40%。

自定义留存/留存率
定义:某段时间内,「初始行为」触发了某个事件的用户,经过一段时间后「回访行为」是触发另一事件的用户被称为自定义留存;此部分用户占触发「初始行为」的比例就是自定义留存率。

场景举例:某电商产品,6月份「初始行为」搜索商品的用户有1000人,7月份「回访行为」是加入购物车的用户有800人,则自定义留存为800,自定义留存率为80%;8月份「回访行为」是加入购物车的用户有500人,则自定义留存为500,自定义留存率为50%。

次日留存率
定义:新增用户在次日再次使用产品的比例。

场景举例:某产品,6月1日新增用户100人,6月2日使用产品的人数为70人,则次日留存为70人,次日留存率是70%。

7日留存/周留存
定义:新增用户在第7天再次使用产品的比例。

如何判定:诸葛io会严格按照每个用户在第7天是否使用产品,计算其周留存。

场景举例:某公司,6月1日新增用户100人,这100人中,6月7日仍在使用产品的人数为30人,则6月1日新增用户的周留存/7日留存为30%。如果用户在6月1日新增,只在6月5日时活跃过,那么周留存中时不把这部分用户计算在内的

<think>好的,用户想了解在数据分析中如何实现特定指标以及模型设计的方法。首先,我需要明确他们的问题核心。可能他们是在进行数据分析项目时遇到了指标定义或模型构建的困难,需要具体的步骤和方法指导。 根据引用[2]提到的,数据模型无法复用会导致开发效率低下,所以好的模型设计是关键。我应该先解释指标实现的基本流程,包括定义、数据收集、计算和分析。然后,模型设计方面要强调分层设计,比如ODS、DWD、DWS和ADS层,这样能提高复用性,减少重复计算。 接下来,用户可能需要具体的方法论,比如AARRR模型,这在引用[1]中提到过,可以作为例子说明如何应用模型到实际业务中。此外,引用[3]讨论了大模型与数据分析的结合,可以提到使用机器学习模型来增强分析能力,比如预测用户流失。 还要注意引用[4]中的评估方法,定量和定性评估都是重要的,确保指标的有效性。后,给出应用示例,比如用户增长分析,帮助用户理解理论如何落地。 需要检查是否覆盖了用户提到的所有关键词:指标实现、模型设计、方法。同时,结构要清晰,分步骤说明,并引用相关文献来支持建议。可能用户的实际场景是电商或互联网产品,所以示例要贴近这些领域。避免使用过于专业的术语,保持解释的易懂性。</think>### 数据分析指标实现与模型设计方法 #### 一、实现特定指标的核心步骤 1. **指标定义与拆解** - 明确业务目标,将抽象需求转化为可量化指标,例如用户留存率、转化率等 - 采用$指标 = \frac{分子}{分母} \times 100\%$的通用公式进行拆解,例如: $$留存率 = \frac{次日活跃用户数}{首日新增用户数} \times 100\%$$ 2. **数据采集与清洗** - 建立埋点规范,通过SDK或日志系统采集原始数据 - 使用ETL工具进行数据清洗,处理缺失值、异常值等[^2] 3. **指标计算与验证** - 应用SQL/Python实现计算逻辑,例如: ```sql SELECT COUNT(DISTINCT CASE WHEN activity_date = install_date + 1 THEN user_id END) AS day1_retained, COUNT(DISTINCT user_id) AS new_users, day1_retained * 100.0 / new_users AS retention_rate FROM user_activity GROUP BY install_date ``` - 通过A/B测试验证指标有效性[^4] #### 二、数据模型设计方法论 1. **分层建模原则** - **ODS层**:原始数据存储,保持业务系统原貌 - **DWD层**:数据清洗、维度退化,解决数据质量问题 - **DWS层**:构建主题宽表,例如用户行为宽表、商品特征宽表 - **ADS层**:面向具体场景的聚合指标,支持即席查询 2. **模型设计范式** - **星型模型**:事实表+维度表,适用于OLAP场景 - **雪花模型**:规范化维度表,减少数据冗余 - **数据宽表**:预关联常用维度,提升查询效率 3. **可复用性设计** - 通过维度总线架构实现维度一致性 - 建立公共指标库,定义标准计算口径[^1] #### 三、典型应用场景与模型 1. **用户增长分析(AARRR模型)** - 构建用户生命周期事件表 - 设计漏斗分析模型: $$转化率_{阶段n} = \frac{到达阶段n的用户数}{初始用户数} \times 100\%$$ [^1] 2. **预测类指标实现** - 使用XGBoost等算法构建预测模型: $$P(churn) = \frac{1}{1+e^{-(\beta_0+\beta_1X_1+...+\beta_nX_n)}}$$ - 特征工程包含用户行为序列、属性特征等[^3] 3. **实时指标计算** - 采用Lambda架构:批处理层+速度层 - 使用Flink实现流式窗口计算: $$实时DAU = \sum_{t=0}^{23} \text{distinct}(user_id) \quad \text{over 1h sliding window}$$ #### 四、质量保障措施 1. **数据一致性校验** - 通过$|结果A - 结果B| < \epsilon$验证不同计算路径的一致性 2. **性能优化方法** - 列式存储+分区剪枝 - 物化视图预计算: $$CREATE MATERIALIZED VIEW user_retention_mv AS ...$$ 3. **元数据管理** - 建立数据血缘图谱,追踪指标加工路径
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值