- 博客(99)
- 收藏
- 关注
原创 SQL190 0级用户高难度试卷的平均用时和平均得分
SELECTFROM (SELECTer.uid,CASE WHEN [未完成条件] THEN 0 ELSE score END AS score,CASE WHEN [未完成条件] THEN duration ELSE 实际用时 END AS duration_minWHERE [业务过滤条件]只需替换[条件]和[用时计算]即可复用!
2025-10-30 08:26:01
676
原创 SQL 189 统计有未完成状态的试卷的未完成数和未完成率
一条记录只要,就表示未完成。start_time通常非空(表示已开始作答),所以每条记录都算一次“作答尝试”。知识点说明只统计的行COUNT(*)统计所有行,包括 NULL 值聚合函数不能在WHERE必须用HAVING或子查询浮点除法陷阱整数除法会截断小数,需转浮点保留 3 位小数子查询封装先聚合,再过滤,结构更清晰。
2025-10-29 11:19:36
398
原创 SQL188 每月及截止当月的答题情况
新增 ≠ 当月活跃新增 =该用户的第一次作答记录所在的月份必须先识别每个用户的“首次行为”,不能直接对当月数据去重。“先标记,再统计”-- 万能模板ROW_NUMBER() OVER (PARTITION BY uid ORDER BY 时间) AS rn然后用打标。
2025-10-26 09:38:17
817
原创 SQL186 对试卷得分做min-max归一化
new_score=score−min(score)max(score)−min(score)×100new_score=max(score)−min(score)score−min(score)×100 三、分步解析(核心!)我们像“搭积木”一样,从内到外一步步构建。 做了什么? 关联两张表,获取试卷难度 :只保留高难度试卷 :排除未交卷记录(如 为 ) 使用窗口函数: → 每份试卷的最低分 → 每份试卷的最高分 输出示例(t1):
2025-10-25 10:33:44
798
原创 前端学习之数据类型
基本类型检测typeof适用于numberstringboolean等基本类型。实例检测instanceof用于检查对象是否属于某个构造函数或类。类型转换String()显式转换数字为字符串,避免隐式转换问题。
2025-10-15 08:56:08
336
原创 前端学习之CSS
设标签选择器权重为 $a$,类选择器为 $b$,ID选择器为 $c$,则优先级为: $$ P = c \times 100 + b \times 10 + a $$ 比较规则:高位优先(如ID选择器权重始终高于类选择器)权重 = $1 \times 100 + 0 \times 10 + 1 = 101$权重 = $0 \times 100 + 1 \times 10 + 0 = 10$父元素 子元素:伪类。
2025-09-24 10:33:12
648
原创 HTML基本标签二:
dl>标签类型关键点超链接使用和rel属性自定义列表使用<dl><dt><dd>结构语义化标签优先使用<header><nav>等语义化标签。
2025-09-23 12:07:25
496
原创 HTML基本标签一
类别标签/属性用途是否必需表单密码输入否value设置默认值否checked复选框/单选框默认选中否(存在即选中)表格<table>表格容器是<caption>表格标题推荐使用<tr><td>行与单元格是图像<img>插入图片是src图片路径✅ 必需alt替代文本✅ 强烈推荐title悬停提示否。
2025-09-22 11:21:09
970
原创 数据分析:函数
本系列题目基于某店铺的会员消费数据sales.csv,通过RFM 模型对用户进行价值评分,并筛选出最有价值的高消费用户。DA46:实现对每个用户的 R、F、M 三个维度分别打分(1-4分)。DA47:在评分基础上构建 RFM 综合标签,识别“444”类顶级优质客户并排序输出前5名。要点内容✅ 核心技能使用实现基于分布的自动评分✅ 关键思维“越优指标得分越高” 的逆向/正向打分设计✅ 工程实践多维度评分 → 标签拼接 → 筛选排序输出✅ 商业洞察。
2025-09-15 15:28:20
909
原创 数据分析:排序
项目DA44DA45排序字段monetaryLevel排序方式降序 (升序(默认)是否重置索引是(要求索引从0开始)否(但用了 inplace 修改原数据)输出数量前3条全部数据显示控制无特殊要求使用防止截断关键函数head# 1. 单字段降序# 2. 多字段排序:先按 Level 升序,再按成就值降序# 3. 保留前 N 条df.nlargest(3, 'monetary') # 等价于 sort + head# 4. 重置索引(常用)
2025-09-14 14:41:18
626
原创 数据分析:合并二
pd.merge()“合并看需求,inner 保完整,left 保主表;透视用 pivot,index 行,columns 列,count 统人数。
2025-09-13 16:40:20
1446
原创 数据分析:合并一
题号目标关键操作连接方式聚合/筛选DA37有人报名的项目人数只输出有数据的DA38所有项目(含0人)left显示0人项目DA39多报名表汇总inner合并多个源数据DA40特定人群信息查询merge + 多条件筛选 + 列选择inner输出明细数据场景推荐做法合并多个 CSV 报名表关联项目信息统计数量或.count()保留主表全部数据how='left'筛选满足多个条件的数据输出前清理索引防止拼写错误。
2025-09-11 13:46:50
1289
原创 分组聚合二
题目核心操作关键函数应用场景DA33连续登录识别cumcounttransform, 差值法用户行为连续性分析DA34分组取最大值最值统计DA35多维度频次统计交叉分析DA36分组筛选, 布尔索引条件过滤。
2025-09-10 19:52:29
1258
原创 分组聚合一
题目核心操作关键函数应用场景DA29按天统计去重题目数时间序列去重统计DA30计算次日留存率用户行为留存分析DA31多维度分组统计交叉维度分析DA32单维度分类统计基础频次统计。
2025-09-09 14:10:09
907
原创 Json处理
如果你读入了这个json文件,能将其转换为pandas的DataFrame格式吗?数据集直接从当前目录下的Nowcoder.json文件中读取。Achievement_value:成就值。Graduate_year:毕业年份。Nowcoder_ID:用户ID。# 创建 DataFrame。# 打印 DataFrame。Language:常用语言。# 手动构建预期数据。
2025-09-08 16:36:05
1296
原创 [特殊字符] DA1-13 复习学习笔记
操作口诀选数据loc看名字,iloc看位置查空值删空行dropna(subset=列名)转类型显示全set_option三连筛条件括号加,别用and数频次最方便处理日期先,再.dt提取。
2025-09-03 13:39:43
760
原创 数据清洗学习笔记
将最后一次提交题目日期统一为yyyy-mm-dd格式。# 处理可能存在的空行# 尝试转换Last_submission_time到datetime类型,并统一格式化为"yyyy-mm-dd"# 输出用户ID、等级与最后提交日期三列,包括行号参数会将无法解析的日期转换为NaT(Not a Time),方便后续处理。用于格式化日期输出。这些例子展示了如何使用Pandas库来解决常见的数据清洗问题,如去除缺失值、填补缺失值、处理重复数据和日期格式标准化等。掌握这些技能对于数据分析和预处理非常关键。
2025-09-02 08:39:53
296
原创 中级函数二
函数用途示例nunique()统计唯一值数量unique()返回唯一值数组(保持顺序)mode()返回众数计算分位数var()样本方差std()样本标准差极差。
2025-08-30 08:50:19
480
原创 中级函数一
从Nowcoder.csv文件中找出各种常用编程语言的用户数量。: 计算牛客网Python用户的平均提交代码次数,并保留一位小数。: 计算刷题量不低于10题的所有用户的等级中位数,并以整型输出。: 计算并输出牛客网用户的最长和最短连续签到天数。
2025-08-30 08:46:42
504
原创 Python 数据分析学习笔记:Pandas 逻辑运算
操作推荐方法单条件筛选df[cond]多条件“与”(A) & (B)或多条件“或”(A) | (B)或“不等于”!选择多列或避免链式索引优先使用loc显示全部数据等。
2025-08-28 09:59:07
718
原创 Python 数据分析学习笔记:Pandas 数据索引
输出文件最后 5 行用户的LevelLanguage。操作方法读取 CSV查看空值或筛选行或筛选列复合条件(A) & (B)(注意括号)字符串处理位置索引iloc[i:j](行)、(列)查看末尾df.tail(n)安全索引。
2025-08-27 09:25:31
882
原创 Python 数据分析学习笔记:Pandas 查看数据
输出第 10 行到第 20 行的常用语言,每行数据单独成行。输出数据集中第 10 行到第 20 行用户的常用语言。输出第 11 行的全部信息,每列信息单独成行。💡 除非你明确知道索引标签,否则优先使用。输出数据集中第 11 行用户的全部信息。数据集的前 6 行数据。数据集直接从当前目录下的。输出该数据集的前 6 行。数据集直接从当前目录下的。输出该数据集的行数与列数。数据集直接从当前目录下的。数据集直接从当前目录下的。的按位置访问数据的方式。数据集的行数与列数。
2025-08-26 09:09:19
581
原创 numpy数组运算
当两个数组形状不同时,NumPy 会尝试通过“广播”规则自动扩展较小的数组,使其与较大的数组兼容。✅ 使用函数形式更清晰,尤其在函数式编程或需要显式控制时。输出结果数组,保留 2 位小数。复制了 10 行,叠加到。的,无需 for 循环。三角函数输入必须是弧度。
2025-08-23 08:11:13
684
原创 SQL185 试卷完成数同比2020年的增长率及排名变化
技术点说明应用场景获取下一行/上一行的值同比、环比分析RANK()处理并列排名排行榜、绩效排名窗口函数分组分组内排序、对比格式化数值输出百分比、金额显示类型转换字符串转整数计算CTE 公共表表达式分步处理复杂逻辑“用LEAD()实现跨年数据对齐,RANK()计算年度排名,格式化增长率,完成试卷类别的同比分析”年度/季度/月度对比分析排名变化监控增长率计算与展示。
2025-08-22 10:30:55
1446
原创 SQL184 近三个月未完成试卷数为0的用户完成情况
技术点说明应用场景提取年月,用于时间维度聚合按月分析用户行为将数据从“记录级”升到“用户+月级”汇总每月指标统计非空值数量 → 完成数过滤未完成记录标记并统计特定状态(如未完成)状态检测对时间倒序排名,取最近N期最近N个月分析CTE 公共表表达式分步处理复杂逻辑uid NOT IN (子查询)排除满足条件的用户黑名单过滤。
2025-08-22 10:25:59
983
原创 numpy数组
NumPy(Numerical Python)是 Python 中用于科学计算的核心库,提供了高性能的多维数组对象(任务是将文件内容读取为一个 NumPy 数组,并输出该数组的元素类型。NumPy 支持多种数据类型,明确指定类型可以节省内存并避免错误。文件记录了年会座位安排,数字代表不同部门。的对角线元素(即反对角线),并组成一个一维数组。是一个 10x10 的矩阵,需要选取从。是链式索引,虽然能工作,但推荐使用。来索引数组,可以提取任意位置的元素。这种更高效、更清晰的语法。)和操作这些数组的工具。
2025-08-22 08:49:18
557
原创 pandas清洗与排序
的文件,该文件记录了某店铺的网上销售数据,包含订单号、实际付款金额、订单日期和用户会员等级。由于部分用户未付款导致订单过期,实际付款金额字段存在空值(NaN),这会影响财务统计。任务是删除所有含有空值的行,清洗数据。文件中双十一期间的订单数据,统计每个店铺的总销售额,并按销售额从高到低排序,找出销售冠军。在实际项目中,数据缺失是常见问题。示例:统计每个店铺的总销售额、平均销售额和订单数量。方法支持同时应用多个聚合函数,便于全面分析数据。进行线性或多项式插值,适用于时间序列数据。本题要求处理一个名为。
2025-08-21 08:57:43
459
原创 pandas分组合并
本题要求分析某线上商城近一周的订单数据,统计不同会员等级的平均消费金额以及光顾的不同店铺数量。记录了用户在平台商城的消费情况。任务是统计粉丝数大于 10000 的用户消费过的店铺。在实际项目中,原始数据往往存在缺失值、重复值或格式不一致的问题。记录了短视频用户的基本信息,包括账号、关注人数、粉丝数、总消费金额等;文件中,包含订单号、商品价格、销售日期、店铺名称和会员等级等字段。当处理大规模数据时,性能成为关键问题。示例:统计每个会员等级在不同时间段的平均消费金额。,Pandas 还提供了强大的。
2025-08-20 17:19:22
621
原创 pandas数据筛选
问题答案什么时候写?- 需要做字符串匹配(如日期、ID、类别)→ ✅ 写<br>- 需要做数值计算(如工资、工龄比较)→ ❌ 不写,让pandas自动识别为数字和and有什么区别?:用于的按元素“与”操作 → ✅ 正确<br>-and:用于单个布尔值的逻辑运算 → ❌ 不能用于为什么条件要加括号?因为的优先级低于==,不加括号会导致语法错误或逻辑错误。df[条件][列]和df[列][条件]哪个好?推荐df[条件][列]或df.loc[条件, 列],避免链式索引风险。df['col']和df.col一样吗。
2025-08-19 14:49:49
947
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅