2021-11-14

Github进不去(简略记载)

https://websites.ipaddress.com/github.com
https://websites.ipaddress.com/github.global.ssl.fastly.net
https://websites.ipaddress.com/assets-cdn.github.com

打开本地文件:C:\Windows\System32\drivers\etc
修改host,添加上述网址
win+R,输入cmd回车,输入以下命令:ipconfig /flushdns

要找出在蚂蚁森林中 **连续3天及以上每天减少碳排放量(lowcarbon)均大于100** 的用户,我们可以使用 Hive SQL 中的窗口函数来解决这个问题。 ### 解题思路: 1. 每个用户(`id`)按日期(`dt`)排序。 2. 筛选出 `lowcarbon > 100` 的记录。 3. 使用 `ROW_NUMBER()` 为每条记录分配一个序号。 4. 计算 `dt` 和 `row_number` 的差值(称为“日期组”),如果这个差值相同,则说明是连续的日期。 5. 对每个用户 + 日期组进行分组,统计连续天数。 6. 找出连续天数 ≥ 3 的用户。 --- ### ✅ HiveSQL 实现代码: ```sql WITH filtered_data AS ( -- 步骤1: 筛选 lowcarbon > 100 的记录 SELECT id, dt, lowcarbon FROM your_table_name WHERE lowcarbon > 100 ), ranked_data AS ( -- 步骤2: 按 id 分组,按 dt 排序,生成行号 SELECT id, dt, ROW_NUMBER() OVER (PARTITION BY id ORDER BY dt) AS rn FROM filtered_data ), grouped_data AS ( -- 步骤3: 将 dt 转为日期类型,并计算 "日期 - rn" 作为连续组标识 SELECT id, dt, DATE_SUB(dt, rn) AS grp -- 连续日期会落在同一个 grp FROM ranked_data ) -- 步骤4: 按 id 和 grp 分组,统计连续天数 SELECT DISTINCT id FROM grouped_data GROUP BY id, grp HAVING COUNT(*) >= 3; ``` --- ### 🔍 代码解释: - `filtered_data`: 只保留 `lowcarbon > 100` 的数据,因为我们要找的是每天都超过100的连续记录。 - `ranked_data`: 使用 `ROW_NUMBER()` 按照时间顺序给每个用户的记录编号。这是关键步骤。 - `DATE_SUB(dt, rn)`: 如果某用户在 `2021-12-12`, `2021-12-13`, `2021-12-14` 都有记录,那么 `dt - rn` 的结果是一样的(比如都等于 `2021-12-11`),从而形成一个“连续组”。 - `GROUP BY id, grp`: 同一组内的记录表示连续的天数。 - `HAVING COUNT(*) >= 3`: 至少连续3天满足条件。 - `SELECT DISTINCT id`: 最终返回符合条件的用户 ID。 --- ### 📝 示例说明: 假设输入数据片段如下: | id | dt | lowcarbon | |------|------------|---------| | 1001 | 2021-12-12 | 123 | | 1001 | 2021-12-13 | 143 | | 1001 | 2021-12-14 | 230 | | 1001 | 2021-12-15 | 120 | | 1001 | 2021-12-17 | 110 | 则 `1001` 在 `12-12` 到 `12-15` 共4天都 >100,属于连续4天 → 符合条件。 而中间断开一天(如12-16缺失),`12-17`开始的新序列只能算1天或更少,不计入。 --- ### ⚠️ 注意事项: - 确保 `dt` 是 `STRING` 类型且格式为 `'yyyy-MM-dd'`,Hive 的 `DATE_SUB` 支持字符串自动转换。 - 表名 `your_table_name` 需替换为实际表名。 - 若存在同一天多条记录(如你数据中有两个 `1001 2021-12-13`),应先对每天做聚合处理。 > 👉 如果允许 **单日多次打卡**,需要先按 `id, dt` 求和再判断是否 >100: ```sql WITH daily_sum AS ( SELECT id, dt, SUM(lowcarbon) AS daily_lowcarbon FROM your_table_name GROUP BY id, dt ), filtered_data AS ( SELECT id, dt FROM daily_sum WHERE daily_lowcarbon > 100 ) -- 后续步骤同上(从 ranked_data 开始) ``` --- ###
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值