- 博客(40)
- 收藏
- 关注
原创 题解 | 最受欢迎的top3课程
请找到最受欢迎的top3课程,受欢迎定义为:必须是平均评分不低于3,发布后一周内被观看次数越大越受欢迎。如果观看量一样大,则被播放总时长越长越受欢迎,输出课程ID、观看量和总时长(单位:分钟)。按受欢迎程度由高到低排序。start_time datetime COMMENT "开始观看时间",end_time datetime COMMENT "结束观看时间",cid int NOT NULL COMMENT "课程ID",cid INT NOT NULL COMMENT "课程ID",
2025-12-11 11:47:17
874
原创 各个部门实际平均薪资和男女员工实际平均薪资
故结果为dep2部门平均薪资是(8800+13500+54000)/ 3=25433.33、average_actual_salary_male是13500/1=13500.00、average_actual_salary_female是(8800+54000)/2=31400.00。实发薪资和性别分别为:3号female员工11000-2200=8800、5号male员工16000-2500=13500、7号female员工60000-6000=54000。-- 创建 staff_tb 表数据。
2025-12-10 21:12:10
540
原创 题解 | 统计每个产品的销售情况
为了对每个产品的营销进行新的策划,需要统计2023年每个产品的销售情况。customers(顾客)表格。products(产品)表格。orders(订单)表格。按要求查询出来的结果。
2025-12-10 20:18:01
852
原创 接雨水问题
这道题也是类似,我们可以将整个图看成一个水桶,两边就是水桶的板,中间比较低的部分就是水桶的底,由较短的边控制水桶的最高水量。但是水桶中可能出现更高的边,比如上图第四列,它比水桶边还要高,那这种情况下它是不是将一个水桶分割成了两个水桶,而中间的那条边就是两个水桶的边。数据范围:数组长度 0≤n≤2×1050≤n≤2×105,数组中每个值满足 0<val≤1090<val≤109 ,保证返回结果满足 0≤val≤109 0≤val≤109。(数组以外的区域高度视为0)要求:时间复杂度 O(n)O(n)
2025-12-03 21:37:36
302
原创 题解 | 更新用户积分信息?
订单信息表:order_tb(订单id-order_id,用户id-user_id,订单金额-order_price,订单创建时间-order_time)会员等级信息表:uservip_tb(用户id-user_id,会员等级-vip,积分-point)INSERT INTO uservip_tb VALUES(11,'银卡会员',1555);INSERT INTO uservip_tb VALUES(10,'银卡会员',530);要求输出:user_id,积分。
2025-12-03 12:07:15
405
原创 买卖股票的最好时机(三)
动态规划算法的基本思想是:将待求解的问题分解成若干个相互联系的子问题,先求解子问题,然后从这些子问题的解得到原问题的解;因最多只可以同时持有一只股票,所以不能在第一天进行第一笔股票交易的买进操作,又在第二天进行第二笔股票交易的买进操作(此时第一笔股票交易还没卖出),最后两笔股票交易同时在第三天卖出,也即以上操作不满足题目要求。假设你有一个数组prices,长度为n,其中prices[i]是某只股票在第i天的价格,请根据这个价格数组,返回买卖股票能获得的最大收益。第一笔股票交易在第一天买进,第三天卖出;
2025-12-01 21:08:09
781
原创 矩阵的最小路径和
动态规划算法的基本思想是:将待求解的问题分解成若干个相互联系的子问题,先求解子问题,然后从这些子问题的解得到原问题的解;给定一个 n * m 的矩阵 a,从左上角开始每次只能向右或者向下走,最后到达右下角的位置,路径上所有的数字累加起来就是路径和,输出所有的路径中最小的路径和。例如:当输入[[1,3,5,9],[8,1,3,4],[5,0,6,1],[8,8,4,0]]时,对应的返回值为12,数据范围: 1≤n,m≤5001≤n,m≤500,矩阵中任意值都满足 0≤ai,j≤1000≤ai,j≤100。
2025-11-25 17:12:46
292
原创 题解 | 不同路径的数目(一)
动态规划算法的基本思想是:将待求解的问题分解成若干个相互联系的子问题,先求解子问题,然后从这些子问题的解得到原问题的解;如果我们此时就在右下角的格子,那么能够到达该格子的路径只能是它的上方和它的左方两个格子,因此从左上角到右下角的路径数应该是从左上角到它的左边格子和上边格子的路径数之和,因此可以动态规划。进阶:空间复杂度 O(1)O(1),时间复杂度 O(min(n,m))O(min(n,m))要求:空间复杂度 O(nm)O(nm),时间复杂度 O(nm)O(nm)机器人要到达地图的右下角(终点)。
2025-11-25 16:44:17
328
原创 最长公共子序列(二)
题目要求获取最长公共子序列,我们肯定要先知道最长到底是多长,因此肯定要先求最长公共子序列的长度,然后根据这个长度获取这个子序列。(注意:子序列不是子串,子串要求所有字符必须连续,子序列不要求连续,只要求相对位置不变)给定两个字符串str1和str2,输出两个字符串的最长公共子序列。目前给出的数据,仅仅会存在一个最长的公共子序列。数据范围:0≤∣str1∣,∣str2∣≤20000≤∣str1∣,∣str2∣≤2000。要求:空间复杂度 O(n2)O(n2) ,时间复杂度 O(n2)O(n2)
2025-11-24 17:00:42
236
原创 题解 | 得分不小于平均分的最低分
examination_info表(exam_id试卷ID, tag试卷类别, difficulty试卷难度, duration考试时长, release_time发布时间)(9003, '算法', 'medium', 80, '2020-08-02 10:00:00');exam_id int UNIQUE NOT NULL COMMENT '试卷ID',exam_id int NOT NULL COMMENT '试卷ID',uid int NOT NULL COMMENT '用户ID',
2025-11-23 16:32:22
433
原创 题解 | SQL类别高难度试卷得分的截断平均值
摘要:本文介绍如何计算SQL类别高难度试卷得分的截断平均值(去掉最高分和最低分后的平均分)。通过连接exam_record和examination_info表,筛选出已完成的有效分数记录,使用聚合函数计算去除极值后的平均分,并保留一位小数
2025-11-23 11:49:39
1034
原创 题解 | 牛客每个人最近的登录日期(二)
第1行表示user_id为2的用户在2020-10-12使用了客户端id为1的设备登录了牛客网。第4行表示user_id为3的用户在2020-10-13使用了客户端id为2的设备登录了牛客网。牛客每天有很多人登录,请你统计一下牛客每个用户最近登录是哪一天,用的是什么设备.wangchao最近的登录日期也是2020-10-13,而且是使用ios登录的。fh最近的登录日期在2020-10-13,而且是使用ios登录的。
2025-11-23 02:45:00
274
原创 题解 | 牛客每个人最近的登录日期(三)
(sqlite里查找某一天的后一天的用法是:date(yyyy-mm-dd, '+1 day'),四舍五入的函数为round,sqlite 1/2得到的不是0.5,得到的是0,只有1*1.0/2才会得到0.5。user_id为1的用户在2020-10-12第一次新登录了,在2020-10-13又登录了,算是成功的留存。user_id为2的用户在2020-10-12第一次新登录了,在2020-10-13又登录了,算是成功的留存。牛客每天有很多人登录,请你统计一下牛客新登录用户的次日成功的留存率,
2025-11-23 01:23:55
574
原创 题解 | 牛客每个人最近的登录日期(一)
第1行表示user_id为2的用户在2020-10-12使用了客户端id为1的设备登录了牛客网。第4行表示user_id为3的用户在2020-10-13使用了客户端id为2的设备登录了牛客网。牛客每天有很多人登录,请你统计一下牛客每个用户最近登录是哪一天。user_id为3的最近的登录日期也是2020-10-13。user_id为2的最近的登录日期在2020-10-13。
2025-11-22 22:14:10
294
原创 题解 | 异常的邮件概率
有一个邮件(email)表,id为主键, type是枚举类型,枚举成员为(completed,no_completed),completed代表邮件发送是成功的,no_completed代表邮件是发送失败的。2020-01-11失败的概率为0.500,因为email的第1条数据,发送的用户id为2是黑名单用户,所以不计入统计,正常用户发正常用户总共2次,但是失败了1次,所以概率是0.500;第2行表示id为2的不是正常用户,是黑名单用户,如果发送大量邮件或者出现各种情况就会容易发送邮件失败的用户。
2025-11-22 17:04:54
1220
原创 题解 | 给出employees表中排名为奇数行的first_name
对于employees表中,输出first_name排名(按first_name升序排序)为奇数的first_name。如对以上示例数据的first_name排序后的序列为:Anneke、Bezalel、Georgi、Kyoichi。则排序后的序列中的Georgi排名为3,Anneke排名为1,所以按原序列顺序输出Georgi、Anneke。请你在不打乱原序列顺序的情况下,输出:按first_name排升序后,取奇数行的first_name。
2025-11-22 12:37:03
186
原创 SQL-练习之——完成员工考核试卷突出的非领导员工-牛客
摘要:分析某公司2021年度员工考核数据,筛选出每类试卷表现突出的非领导员工。突出员工需满足:1)得分高于该试卷平均分;2)答题用时少于平均用时;3)员工等级<7。通过多表连接计算各项平均值并进行对比筛选,最终输出满足条件的员工ID、等级和试卷类别,按员工ID升序排列。示例结果显示员工1006和1007分别在技术水平和企业文化类试卷中表现突出。
2025-11-14 21:16:28
540
原创 算法练习之——字符串变形-牛客
首先这个字符串中包含着一些空格,就像"Hello World"一样,然后我们要做的是把这个字符串中由空格隔开的单词反序,同时反转每个字符的大小写。数据范围: 1≤n≤1061≤n≤106 , 字符串中包括大写英文字母、小写英文字母、空格。比如"Hello World"变形后就变成了"wORLD hELLO"。进阶:空间复杂度 O(n)O(n) , 时间复杂度 O(n)O(n)请返回变形后的字符串。给定一个字符串s以及它的长度n(1 ≤ n ≤ 10^6)对于一个长度为 n 字符串,我们需要对它做一些变形。
2025-11-13 19:33:33
116
原创 SQL练习分享-牛客网-SQL编程-查询连续登陆的用户
摘要:该问题要求查询2022年2月8日新注册且在随后连续登录不少于3天的用户。使用SQL解决方案,通过lead()窗口函数获取用户后续登录日期,datediff()函数验证连续3天登录。示例输出显示用户1102和1106满足条件,分别在9-11日和10-12日连续登录。SQL语句先筛选注册用户,再检测其登录记录的连续性。
2025-11-02 21:43:06
357
原创 kafka集群安装部署
kafka运行日志(数据)存放的路径,路径不需要提前创建,kafka自动帮你创建,可以配置多个磁盘路径,路径与路径之间可以用","分隔。#配置连接Zookeeper集群地址(在zk根目录下创建/kafka,方便管理)#broker对外暴露的IP和端口 (每个节点单独配置)#broker对外暴露的IP和端口 (每个节点单独配置)#broker对外暴露的IP和端口 (每个节点单独配置)#broker的全局唯一编号,不能重复,只能是数字。# 每个topic创建时的副本数,默认时1个副本。
2025-09-24 11:24:48
819
原创 zookeeper集群安装部署
是万一集群中的Leader服务器挂了,需要一个端口来重新进行选举,选出一个新的Leader,而这个端口就是用来执行选举时服务器相互通信的端口。(1)重命名/opt/module/zookeeper/conf目录下的zoo_sample.cfg为zoo.cfg。(2)在/opt/module/zookeeper/zkData目录下创建一个myid的文件。(1)在/opt/module/zookeeper/目录下创建zkData。(2)解压Zookeeper安装包到/opt/module/目录下。
2025-09-24 11:20:56
475
原创 数据同步策略选择
在某些情况下效率较低。例如某张表数据量较大,但是每天数据的变化比例很低,若对其采用每日全量同步,则会重复同步和存储大量相同的数据。两种策略都能保证数据仓库和业务数据库的数据同步,那应该如何选择呢?下面对两种策略进行简要对比。通常情况,业务表数据量比较大,优先考虑增量,数据量比较小,优先考虑全量;具体选择由数仓模型决定。逻辑复杂,需要将每日的新增及变化数据同原来的数据进行整合,才能使用。效率高,无需同步和存储重复数据。
2025-09-23 22:11:00
142
原创 数仓开发中遇到的问题(在Hadoop HDFS高可用(HA)集群下两个NameNode节点都是StandBy状态)
这个问题是因为,你有使用ZKFC,即你有zookeeper,但是在你打开虚拟机开始运行各个组件的时候没有先开启zookeeper,而是先开启了Hadoop。先关闭全部集群服务,然后再次启动的时候记得先开启zookeeper,再开启Hadoop集群。
2025-09-23 22:08:04
147
原创 数仓建立过程中遇到的问题(Operation category READ is not supported in state standb)
核心报错是Operation category READ is not supported in state standby,表明您尝试从HDFS的Standby节点读取数据。你可以先在active节点下停止namenode的运行,这样之前那个stantby节点会自动被转换成active节点,之后再重启之前关闭的节点,即可解决该问题。在HA模式下,HDFS集群会有Active/Standby两个NameNode,只有Active节点才能处理读写请求。在使用datax 过程中遇到问题。
2025-09-23 22:03:26
153
原创 离线数仓建立过程中遇到的问题(DataX (DATAX-OPENSOURCE-3.0), From Alibaba !Copyright (C) 2010-2017, Alibaba Group. )
在运行DATAX将HDFS数据导入到MYSQL数据库中遇到。2.修改datax.py源码。1.调整JVM内存参数。(一般在第33行左右)完了就可以重新上传检查。原因是JVM内存不足。
2025-09-23 21:57:38
321
原创 在Linux系统中安装MySQL数据库以及部署hive
二.配置Hadoop,因为hive的运行依赖于Hadoop,同时涉及到hdfs文件系统的访问,所以需要配置Hadoop的代理用户。启动客户端,二选一(当前先选择Hive Shell方式)Hive she1l方式(可以直接写SQL):bin/hive。4.把驱动jar包移动到/ecport/server/apache-hive-3.1.2-bin/lib。第一次启动mysql,会在日志文件中生成root用户的一个随机密码,使用下面命令查看该密码。如果你想设置简单密码,需要降低Mysql的密码安全级别。
2025-09-10 23:06:32
1038
原创 Last 4096 bytes of prelaunch.err :Last 4096 bytes of stderr :错误: 找不到或无法加载主类 org.apache.hadoop.mapr
无法加载主类 MRAppMaster,表明YARN未找到MapReduce的ApplicationMaster类。3.重新输入代码,解决问题。
2025-09-08 16:31:23
137
原创 提交mapreduce任务到yarn中执行(单词计数)
hadoop jar hadoop-mapreduce-examples-3.3.1.jar java类名 程序参数1 程序参数2。6.统计结果保存在输出路径中的part-r-00000文件。4.使用命令将mapreduce程序提交到yarn中执行。在单词计数中程序参数1为输入路径,程序参数2为输出路径。words.txt(由单词组成,用空格隔开)也可以在yarn的可视化网站上查看,更加清晰。3.在hdfs中创建输入路径,和输出路径。2.创建一个数据文件。
2025-09-08 16:26:40
409
原创 Hadoop集群部署之yarn和mapreduce部署
(共有三台虚拟机node1,node2,node3)其中node1为主节点即为运行namenode和resourcemanager。最后可以在浏览器输入node1:8088进入网页可以更直观的看到我们的yarn是怎么运行的。yarn --daemon start +各进程名称进行启动。至此完成mapreduce,yarn集群完成配置。将我们配置好的文件复制到node2,node3。大家可以自己操作一下,只要细心就没问题!2.配置yarn-site.xml文件。1.配置yarn-env.sh文件。
2025-09-08 10:35:43
322
原创 JetBrains产品(如Pycharm)中Big Data Tools插件的配置
摘要:在JetBrains产品中配置Hadoop开发环境需三步:1)下载插件;2)设置HADOOP_HOME环境变量并重启电脑;3)连接虚拟机集群时,将URL中的localhost改为虚拟机IP,保留端口号,输入Hadoop用户名,测试连接成功会显示绿色对号。注意环境变量配置后必须重启生效。
2025-09-07 16:09:37
357
原创 Python爬虫技术获取某网站数万条北京租房数据,分析真实的房租情况,包括数据获取、数据清洗预览、数据分析可视化(第三部分:数据可视化及分位数回归结果)
df = df.rename(columns={'价格(元/月)': 'price', '面积': 'area'})results_df.to_excel('分位数回归结果.xlsx', index=False)'截距': result.params.iloc[0], # 使用iloc避免警告。joint_plot.fig.suptitle('北京租房价格与面积关系')df = df[['价格(元/月)', '面积']].dropna()plt.xlabel('价格 (元/月)')# 5. 保存分析结果。
2025-06-26 21:01:11
358
原创 Python爬虫技术获取某网站数万条北京租房数据,分析真实的房租情况,包括数据获取、数据清洗预览、数据分析可视化(第二部分:数据清洗)
df['面积'] = df['面积'].str.replace('㎡', '').replace('仅剩\d+间', pd.NA, regex=True)print(f"文件大小:{os.path.getsize(output_file) / 1024:.2f} KB")df['面积'] = pd.to_numeric(df['面积'], errors='coerce')df['面积'] = df['面积'].astype(str)print(f"有效面积数据量:{len(df)}条")
2025-06-26 20:59:26
300
原创 Python爬虫技术获取某网站数万条北京租房数据,分析真实的房租情况,包括数据获取、数据清洗预览、数据分析可视化(第一部分:数据获取)
price_text = price_elem.em.text.replace('元', '').strip() if price_elem and price_elem.em else ""return df.rename(columns={'price': '价格(元/月)', 'area_size': '面积'})sns.scatterplot(x='面积', y='价格(元/月)', data=data, alpha=0.6)plt.ylabel('价格(元/月)')
2025-06-26 20:58:04
402
原创 下载ECharts.min.js文件
摘要:本文介绍了在线定制下载Apache ECharts的步骤:首先在官网拉到页面底部点击"在线定制",选择所需图表类型后,再次下拉点击下载按钮。下载完成后系统会弹出保存界面,用户只需选择存储位置即可完成整个下载过程。整个过程需耐心等待文件生成和下载完成。
2025-06-17 21:12:12
605
原创 R语言:简单的apriori算法案例
本文使用R语言分析购物篮数据,构建关联规则模型。首先创建包含5笔交易的商品数据集,处理缺失值后转换为交易型数据。通过apriori算法挖掘频繁项集,设置支持度0.01和置信度0.5的阈值生成关联规则,并按置信度降序排序输出结果。使用的核心R包包括caret、arules和reshape2,完整展示了从数据预处理到规则挖掘的分析流程。
2025-06-17 20:57:38
423
原创 python案例:简单的贪吃蛇小游戏
message("你输了!按 Q 退出或按 C 重新开始", red)pygame.display.set_caption('贪吃蛇游戏')def gameLoop(): # 创建一个函数,控制游戏循环。# 设置蛇的初始位置和大小。# 初始化 Pygame。# 初始化蛇的起始位置。# 检查蛇是否碰到自己。# 检查食物是否被吃掉。
2025-06-06 20:33:12
435
原创 python案例:简单的魂斗罗小游戏
player_hit_list = pygame.sprite.spritecollide(player, enemy_bullets, True) # 检测玩家与敌人子弹碰撞。self.image = pygame.Surface([BULLET_WIDTH, BULLET_HEIGHT]) # 创建敌人子弹的矩形图像。screen = pygame.display.set_mode((SCREEN_WIDTH, SCREEN_HEIGHT)) # 创建窗口。
2025-06-06 20:31:46
1127
原创 python网络爬虫案例:豆瓣电影评分TOP250
(.*)</span>')#评分。#findtitle=re.compile(r' <div class="title">(.*>)</div>')#名字。)" target="_blank">')#链接。findjujle=re.compile(r'<span>(\d+)人评价
2025-05-26 19:36:39
310
原创 VS中遇到的Linq To SQL工具的相关问题
首先找到下面的文件路径:C:\Program Files\Microsoft Visual Studio\2022\Community\Common7\IDE\ItemTemplates\Web\CSharp。完整复制刀2052文件夹中,即可解决。将1033文件夹中的。
2025-05-26 16:23:41
331
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅