掉进悬崖的狼-优快云博客

原创 SQL-leetcode—3475. DNA 模式识别

这篇文章介绍了如何识别DNA序列中的特定模式。通过分析Samples表中的数据，需要检测四种DNA模式：以ATG开头、以TAA/TAG/TGA结尾、包含ATAT子串以及包含至少3个连续G的序列。解决方案使用SQL查询，通过CASE语句和LIKE操作符来匹配每种模式：检查序列是否以"ATG"开头（has_start）检查序列是否以"TAA"、"TAG"或"TGA"结尾（has_stop）检查序列是否包含"ATAT

2025-10-28 16:47:01 909

原创 SQL-leetcode—3465. 查找具有有效序列号的产品

表：products(product_id) 是这张表的唯一主键。这张表的每一行表示一个产品的唯一 ID，名字和描述。编写一个解决方案来找到所有描述中包含一个有效序列号模式的产品。一个有效序列号符合下述规则：以 SN 字母开头（区分大小写）。后面有恰好 4 位数字。接着是一个短横（-），短横后面还有另一组 4 位数字序列号必须在描述内（可能不在描述的开头）返回结果表以 product_id 升序排序。结果格式如下所示。

2025-09-17 15:32:02 642

原创 SQL-leetcode—3451. 查找无效的 IP 地址

表：logslog_id 是这张表的唯一主键。每一行包含服务器访问日志信息，包括 IP 地址和 HTTP 状态码。编写一个解决方案来查找无效的 IP 地址。一个 IPv4 地址如果满足以下任何条件之一，则无效：任何 8 位字节中包含大于 255 的数字任何 8 位字节中含有前导零（如 01.02.03.04）少于或多于 4 个 8 位字节返回结果表分别以 invalid_count，ip 降序排序。结果格式如下所示。

2025-08-21 17:36:16 1012

原创 SQL-leetcode—3436. 查找合法邮箱

表：Users(user_id) 是这张表的唯一主键。每一行包含用户的唯一 ID 和邮箱地址。编写一个解决方案来查找所有合法邮箱地址。一个合法的邮箱地址符合下述条件：只包含一个 @ 符号。以 .com 结尾。@ 符号前面的部分只包含字母数字字符和下划线。@ 符号后面与 .com 前面的部分包含只有字母的域名。返回结果表以 user_id 升序排序。

2025-08-21 17:28:33 323

原创 SQL-leetcode—3421. 查找进步的学生

表：Scores(student_id, subject, exam_date) 是这张表的主键。每一行包含有关学生在特定考试日期特定科目成绩的信息。分数范围从 0 到 100（包括边界）。编写一个解决方案来查找进步的学生。如果同时满足以下两个条件，则该学生被认为是进步的：在同一科目至少参加过两个不同日期的考试。他们在该学科最近的分数比他们第一次该学科考试的分数更高。返回结果表以 student_id，subject 升序排序。结果格式如下所示。

2025-08-20 15:55:04 1039

原创 SQL-leetcode—3374. 首字母大写 II

表：user_contentcontent_id 是这张表的唯一主键。每一行包含一个不同的 ID 以及对应的文本内容。编写一个解决方案来根据下面的规则来转换 content_text 列中的文本：将每个单词的第一个字母转换为大写，其余字母保持小写。特殊处理包含特殊字符的单词：对于用短横 - 连接的词语，两个部份都应该大写（例如，top-rated → Top-Rated）所有其他格式和空格应保持不变。

2025-08-20 14:58:38 882

原创 SQL-leetcode—3220. 奇数和偶数交易

表：transactionstransactions_id 列唯一标识了表中的每一行。这张表的每一行包含交易 id，金额总和和交易日期。编写一个解决方案来查找每天奇数交易金额和偶数交易金额的总和。如果某天没有奇数或偶数交易，显示为 0。返回结果表以 transaction_date 升序排序。结果格式如下所示。示例：输入：transactions 表：输出：解释：对于交易日期：奇数交易金额总和：75。

2025-08-20 14:21:42 357

原创 SQL-leetcode— 2356. 每位教师所教授的科目种类的数量

表: Teacher在 SQL 中，(subject_id, dept_id) 是该表的主键。该表中的每一行都表示带有 teacher_id 的教师在系 dept_id 中教授科目 subject_id。查询每位老师在大学里教授的科目种类的数量。以任意顺序返回结果表。查询结果格式示例如下。

2025-08-20 14:13:26 426

原创 SQL-leetcode—1978. 上级经理已离职的公司员工

表: Employees在 SQL 中，employee_id 是这个表的主键。这个表包含了员工，他们的薪水和上级经理的id。有一些员工没有上级经理（其 manager_id 是空值）。查找这些员工的id，他们的薪水严格少于$30000 并且他们的上级经理已离职。当一个经理离开公司时，他们的信息需要从员工表中删除掉，但是表中的员工的manager_id 这一列还是设置的离职经理的id。返回的结果按照employee_id 从小到大排序。

2025-08-20 11:59:46 341

原创 SQL-leetcode—1965. 丢失信息的雇员

表: Employeesemployee_id 是该表中具有唯一值的列。每一行表示雇员的 id 和他的姓名。表: Salariesemployee_id 是该表中具有唯一值的列。每一行表示雇员的 id 和他的薪水。编写解决方案，找到所有丢失信息的雇员 id。当满足下面一个条件时，就被认为是雇员的信息丢失：雇员的姓名丢失了，或者雇员的薪水信息丢失了返回这些雇员的 id employee_id ，从小到大排序。查询结果格式如下面的例子所示。

2025-08-01 17:58:07 362

原创 SQL-leetcode—1934. 确认率

表: SignupsUser_id是该表的主键。每一行都包含ID为user_id的用户的注册时间信息。表: Confirmations(user_id, time_stamp)是该表的主键。user_id是一个引用到注册表的外键。action是类型为(‘confirmed’， ‘timeout’)的ENUM。

2025-07-29 16:00:43 855

原创 SQL-leetcode— 1907. 按分类统计薪水

表: Accounts| 列名 | 类型 |在 SQL 中，account_id 是这个表的主键。每一行都包含一个银行帐户的月收入的信息。查询每个工资类别的银行账户数量。工资类别如下：“Low Salary”：所有工资严格低于 20000 美元。“Average Salary”：包含范围内的所有工资 [$20000, $50000]。“High Salary”：所有工资严格大于 50000 美元。结果表必须包含所有三个类别。

2025-07-28 10:14:31 373

原创 SQL-leetcode—1890. 2020年最后一次登录

表: Logins| 列名 | 类型 |(user_id, time_stamp) 是这个表的主键(具有唯一值的列的组合)。每一行包含的信息是user_id 这个用户的登录时间。编写解决方案以获取在 2020 年登录过的所有用户的本年度最后一次登录时间。结果集不包含 2020 年没有登录过的用户。返回的结果集可以按任意顺序排列。返回结果格式如下例。

2025-07-11 11:28:12 464

原创 SQL-leetcode—1873. 计算特殊奖金

表: Employees| 列名 | 类型 |employee_id 是这个表的主键(具有唯一值的列)。此表的每一行给出了雇员id ，名字和薪水。编写解决方案，计算每个雇员的奖金。如果一个雇员的 id 是奇数并且他的名字不是以 ‘M’ 开头，那么他的奖金是他工资的 100% ，否则奖金为 0。返回的结果按照 employee_id 排序。返回结果格式如下面的例子所示。

2025-07-11 11:20:53 368

原创 SQL-leetcode—1795. 每个产品在不同商店的价格

表：Products在 SQL 中，这张表的主键是 product_id（产品Id）。每行存储了这一产品在不同商店 store1, store2, store3 的价格。如果这一产品在商店里没有出售，则值将为 null。请你重构 Products 表，查询每个产品在不同商店的价格，使得输出的格式变为(product_id, store, price)。如果这一产品在商店里没有出售，则不输出这一行。输出结果表中的顺序不作要求。查询输出格式请参考下面示例。

2025-04-02 16:13:11 458

原创 SQL-leetcode—1789. 员工的直属部门

表：Employee这张表的主键为 employee_id, department_id (具有唯一值的列的组合)employee_id 是员工的IDdepartment_id 是部门的ID，表示员工与该部门有关系primary_flag 是一个枚举类型，值分别为(‘Y’, ‘N’). 如果值为’Y’,表示该部门是员工的直属部门。如果值是’N’,则否一个员工可以属于多个部门。当一个员工加入超过一个部门的时候，他需要决定哪个部门是他的直属部门。

2025-03-06 16:59:37 345

原创 SQL-leetcode—1757. 可回收且低脂的产品

表：Productsproduct_id 是该表的主键（具有唯一值的列）。low_fats 是枚举类型，取值为以下两种 (‘Y’, ‘N’)，其中 ‘Y’ 表示该产品是低脂产品，‘N’ 表示不是低脂产品。recyclable 是枚举类型，取值为以下两种 (‘Y’, ‘N’)，其中 ‘Y’ 表示该产品可回收，而 ‘N’ 表示不可回收。编写解决方案找出既是低脂又是可回收的产品编号。返回结果无顺序要求。

2025-02-27 15:48:06 200

原创 SQL-leetcode— 1741. 查找每个员工花费的总时间

表: Employees在 SQL 中，(emp_id, event_day, in_time) 是这个表的主键。该表显示了员工在办公室的出入情况。event_day 是此事件发生的日期，in_time 是员工进入办公室的时间，而 out_time 是他们离开办公室的时间。in_time 和 out_time 的取值在1到1440之间。题目保证同一天没有两个事件在时间上是相交的，并且保证 in_time 小于 out_time。

2025-02-17 17:26:34 908

原创 SQL-leetcode— 1731. 每位经理的下属员工数量

表：Employeesemployee_id 是这个表中具有不同值的列。该表包含员工以及需要听取他们汇报的上级经理的 ID 的信息。有些员工不需要向任何人汇报（reports_to 为空）。对于此问题，我们将至少有一个其他员工需要向他汇报的员工，视为一个经理。编写一个解决方案来返回需要听取汇报的所有经理的 ID、名称、直接向该经理汇报的员工人数，以及这些员工的平均年龄，其中该平均年龄需要四舍五入到最接近的整数。返回的结果集需要按照 employee_id 进行排序。

2025-02-14 11:29:15 562

原创 SQL-leetcode—1729. 求关注者的数量

表： Followers(user_id, follower_id) 是这个表的主键（具有唯一值的列的组合）。该表包含一个关注关系中关注者和用户的编号，其中关注者关注用户。编写解决方案，对于每一个用户，返回该用户的关注者数量。按 user_id 的顺序返回结果表。查询结果的格式如下示例所示。示例 1：输入：Followers 表：输出：解释：0 的关注者有 {1}1 的关注者有 {0}2 的关注者有 {0,1}

2025-02-14 11:14:12 341

原创 SQL-leetcode—1693. 每天的领导和合伙人

表：DailySales该表没有主键(具有唯一值的列)。它可能包含重复项。该表包含日期、产品的名称，以及售给的领导和合伙人的编号。名称只包含小写英文字母。对于每一个 date_id 和 make_name，找出不同的 lead_id 以及不同的 partner_id 的数量。按任意顺序返回结果表。返回结果格式如下示例所示。

2025-02-14 11:09:03 866

原创 SQL-leetcode—1683. 无效的推文

表：Tweets在 SQL 中，tweet_id 是这个表的主键。content 只包含美式键盘上的字符，不包含其它特殊字符。这个表包含某社交媒体 App 中所有的推文。查询所有无效推文的编号（ID）。当推文内容中的字符数严格大于 15 时，该推文是无效的。以任意顺序返回结果表。查询结果格式如下所示：示例 1：输入：Tweets 表：输出：解释：推文 1 的长度 length = 14。该推文是有效的。

2025-02-14 11:03:20 439

原创 SQL-leetcode—1667. 修复表中的名字

表： Usersuser_id 是该表的主键(具有唯一值的列)。该表包含用户的 ID 和名字。名字仅由小写和大写字符组成。编写解决方案，修复名字，使得只有第一个字符是大写的，其余都是小写的。返回按 user_id 排序的结果表。返回结果格式示例如下。

2025-02-13 11:41:06 423

原创 SQL-leetcode—1661. 每台机器的进程平均运行时间

表: Activity该表展示了一家工厂网站的用户活动。(machine_id, process_id, activity_type) 是当前表的主键（具有唯一值的列的组合）。machine_id 是一台机器的ID号。process_id 是运行在各机器上的进程ID号。activity_type 是枚举类型 (‘start’, ‘end’)。timestamp 是浮点类型,代表当前时间(以秒为单位)。

2025-02-13 11:29:13 1176

原创 SQL-leetcode—1633. 各赛事的用户注册率

用户表： Usersuser_id 是该表的主键(具有唯一值的列)。该表中的每行包括用户 ID 和用户名。注册表： Register(contest_id, user_id) 是该表的主键(具有唯一值的列的组合)。该表中的每行包含用户的 ID 和他们注册的赛事。编写解决方案统计出各赛事的用户注册百分率，保留两位小数。返回的结果表按 percentage 的降序排序，若相同则按 contest_id 的升序排序。返回结果如下示例所示。

2025-02-12 18:07:51 750

原创 SQL-leetcode—1587. 银行账户概要 II

表: Usersaccount 是该表的主键(具有唯一值的列)。该表的每一行都包含银行中每个用户的帐号。表中不会有两个用户具有相同的名称。表: Transactionstrans_id 是该表主键(具有唯一值的列)。该表的每一行包含了所有账户的交易改变情况。如果用户收到了钱, 那么金额是正的;如果用户转了钱, 那么金额是负的。所有账户的起始余额为 0。

2025-02-12 17:49:49 852

原创 SQL-leetcode—1581. 进店却未进行过交易的顾客

表：Visitsvisit_id 是该表中具有唯一值的列。该表包含有关光临过购物中心的顾客的信息。表：Transactionstransaction_id 是该表中具有唯一值的列。此表包含 visit_id 期间进行的交易的信息。有一些顾客可能光顾了购物中心但没有进行交易。请你编写一个解决方案，来查找这些顾客的 ID ，以及他们只光顾不交易的次数。返回以任何顺序排序的结果表。返回结果格式如下例所示。示例 1：输入:Visits。

2025-02-12 11:28:57 865

原创 SQL-leetcode—1527. 患某种疾病的患者

患者信息表： Patients在 SQL 中，patient_id （患者 ID）是该表的主键。‘conditions’ （疾病）包含 0 个或以上的疾病代码，以空格分隔。这个表包含医院中患者的信息。查询患有 I 类糖尿病的患者 ID （patient_id）、患者姓名（patient_name）以及其患有的所有疾病代码（conditions）。I 类糖尿病的代码总是包含前缀 DIAB1。按任意顺序返回结果表。查询结果格式如下示例所示。

2025-02-12 11:12:45 468

原创 SQL-leetcode—1517. 查找拥有有效邮箱的用户

表: Usersuser_id 是该表的主键（具有唯一值的列）。该表包含了网站已注册用户的信息。有一些电子邮件是无效的。编写一个解决方案，以查找具有有效电子邮件的用户。一个有效的电子邮件具有前缀名称和域，其中：前缀名称是一个字符串，可以包含字母（大写或小写），数字，下划线 ‘_’ ，点 ‘.’ 和/或破折号 ‘-’。前缀名称必须以字母开头。域为 ‘@leetcode.com’。以任何顺序返回结果表。

2025-02-11 17:29:21 995

原创 SQL-leetcode—1484. 按日期分组销售产品

表 Activities：| 列名 | 类型 |该表没有主键(具有唯一值的列)。它可能包含重复项。此表的每一行都包含产品名称和在市场上销售的日期。编写解决方案找出每个日期、销售的不同产品的数量及其名称。每个日期的销售产品名称应按词典序排列。返回按 sell_date 排序的结果表。结果表结果格式如下例所示。

2025-02-11 15:38:13 495

原创 SQL-leetcode—1407. 排名靠前的旅行者

表：Usersid 是该表中具有唯一值的列。name 是用户名字。表：Ridesid 是该表中具有唯一值的列。user_id 是本次行程的用户的 id, 而该用户此次行程距离为 distance。编写解决方案，报告每个用户的旅行距离。返回的结果表单，以 travelled_distance 降序排列，如果有两个或者更多的用户旅行了相同的距离, 那么再以 name 升序排列。返回结果格式如下例所示。

2025-02-11 15:12:35 1216

原创 SQL-leetcode—1393. 股票的资本损益

Stocks 表：(stock_name, operation_day) 是这张表的主键(具有唯一值的列的组合)operation 列使用的是一种枚举类型，包括：(‘Sell’,‘Buy’)此表的每一行代表了名为 stock_name 的某支股票在 operation_day 这一天的操作价格。此表可以保证，股票的每个“卖出”操作在前某一天都有相应的“买入”操作。并且，股票的每个“买入”操作在即将到来的某一天都有相应的“卖出”操作。编写解决方案报告每只股票的资本损益。

2025-02-11 14:47:29 938

原创 SQL-leetcode—1378. 使用唯一标识码替换员工ID

Employees 表：在 SQL 中，id 是这张表的主键。这张表的每一行分别代表了某公司其中一位员工的名字和 ID。EmployeeUNI 表：在 SQL 中，(id, unique_id) 是这张表的主键。这张表的每一行包含了该公司某位员工的 ID 和他的唯一标识码（unique ID）。展示每位用户的唯一标识码（unique ID ）；如果某位员工没有唯一标识码，使用 null 填充即可。你可以以任意顺序返回结果表。返回结果的格式如下例所示。

2025-02-11 14:27:52 517

原创 SQL-leetcode—1341. 电影评分

表：Moviesmovie_id 是这个表的主键(具有唯一值的列)。title 是电影的名字。表：Usersuser_id 是表的主键(具有唯一值的列)。‘name’ 列具有唯一值。表：MovieRating(movie_id, user_id) 是这个表的主键(具有唯一值的列的组合)。这个表包含用户在其评论中对电影的评分 rating。created_at 是用户的点评日期。请你编写一个解决方案：查找评论电影数量最多的用户名。

2025-02-10 14:40:54 754

原创 SQL-leetcode—1327. 列出指定时间段内所有的下单产品

表: Productsproduct_id 是该表主键(具有唯一值的列)。该表包含该公司产品的数据。表: Orders该表可能包含重复行。product_id 是表单 Products 的外键（reference 列）。unit 是在日期 order_date 内下单产品的数目。写一个解决方案，要求获取在 2020 年 2 月份下单的数量不少于 100 的产品的名字和数目。返回结果表单的顺序无要求。查询结果的格式如下。

2025-02-08 16:23:02 830

原创某节面试题②—前80%的id

mysql> select * from a;±—±-----+| id | cnt |±—±-----+| 1 | 10 || 2 | 20 || 3 | 30 || 4 | 40 || 5 | 50 || 6 | 70 || 7 | 60 || 8 | 80 |±—±-----+8 rows in set (0.00 sec)±—+| id |±—+| 8 || 6 || 7 || 5 || 4 |±—

2025-02-08 14:56:43 546

原创 SQL-leetcode—1321. 餐馆营业额变化增长

表: Customer在 SQL 中，(customer_id, visited_on) 是该表的主键。该表包含一家餐馆的顾客交易数据。visited_on 表示 (customer_id) 的顾客在 visited_on 那天访问了餐馆。amount 是一个顾客某一天的消费总额。你是餐馆的老板，现在你想分析一下可能的营业额变化增长（每天至少有一位顾客）。计算以 7 天（某日期 + 该日期前的 6 天）为一个时间段的顾客消费平均值。

2025-02-07 18:41:54 958

原创某团面试题①—kudu读写流程

为什么会有kudu？先贴一个经典的图。kudu诞生之前大数据的主要2种方式存储静态数据以hdfs引擎作为存储引擎，适用于高吞吐量的离线大数据分析场景，缺点是实现随机读写性能差，更新数据难动态数据以Hbase为代表作为存储引擎，适用于大数据随机读写的场景，缺点是大批量读取吞吐量远不如hdfs，不适用批量数据分析的场景。要实现大批量的读写，随机读写有比较弱，要随机读写+更新，吞吐量有不行，当时的处理策略是，使用两套集群来使用兼顾。

2025-02-07 17:06:20 1085

原创 SQL-leetcode—1280. 学生们参加各科测试的次数

学生表: Students在 SQL 中，主键为 student_id（学生ID）。该表内的每一行都记录有学校一名学生的信息。科目表: Subjects在 SQL 中，主键为 subject_name（科目名称）。每一行记录学校的一门科目名称。考试表: Examinations这个表可能包含重复数据（换句话说，在 SQL 中，这个表没有主键）。学生表里的一个学生修读科目表里的每一门科目。

2025-02-06 16:51:31 905

原创 SQL-leetcode—1251. 平均售价

表：Prices(product_id，start_date，end_date) 是 prices 表的主键（具有唯一值的列的组合）。prices 表的每一行表示的是某个产品在一段时期内的价格。每个产品的对应时间段是不会重叠的，这也意味着同一个产品的价格时段不会出现交叉。表：UnitsSold该表可能包含重复数据。该表的每一行表示的是每种产品的出售日期，单位和产品 id。编写解决方案以查找每种产品的平均售价。

2025-02-05 16:50:16 809

CDH 离线部署文档.docx

cdh集群安装部署文档，目前使用的是自己的本地环境，伪分布式做的，生产环境可能需要新增一些步骤。

2019-06-10

数据仓库之架构模型介绍-changhf.pptx

数据仓库之架构模型介绍，详细介绍了数据仓库的一些基本知识和概念，适合初学者~

2019-09-19

数据仓库和多维建模.pdf

数据仓库和多维建模专业电子书，很适合初学者进行学习了解~

2019-09-19

数据模型基本概念及建模方法论.ppt

数据模型基本概念及建模方法论电子书，很适合大数据、数据中台人员、建数仓的人员学习

2019-09-19

大数据治理体系-标准规范

内容：主要描述了大数据治理整体架构与体系及标准化的相关内容和探索，涵盖了数据治理的方方面面，整体框架结构及模块分析适应人群: 从事大数据治理研究人员

2022-07-04

省市区行政csv数据

行政区域csv数据，从高德地图上面获取的，需要自取，不需要就参考这篇博客自己搞：https://blog.youkuaiyun.com/MrZhangBaby/article/details/103177408

2019-11-21

Spark汇总知识点

spark相关的知识点整理出来的xmind，仅供参考~ 学习在于总结，希望能够帮助大家更快速的熟悉、了解或者复习这些内容。

2020-06-15

canal 集成kerberos二次编译

canal整合集成了kerberos的kafka，完成全线认证，二次编译源码，使通过配置支持kerberos，源码包，详情见https://blog.youkuaiyun.com/MrZhangBaby/article/details/88394291

2019-03-11

Tomcat日志仅供日志解析使用

之前分享过博客大数据离线web网站日志分析，好多大数据学习爱好者，想要拿到测试数据，可以来这里下载咯，每次发邮件挺麻烦滴～原博客地址：https://blog.youkuaiyun.com/MrZhangBaby/article/details/87360470 如果你没有C币，再私聊我吧～我有空在帮你转发邮件上传内容主要包括两个文件，一个是我本地的，一个是历史测试数据文本

2021-01-05

ogg参考资料

ogg相关介绍文档，解析MySQL的binlog，以及相关数据库的一个中间件，如果不清楚ogg是啥，百度一下呗！哈哈....

2019-02-18

Mounty解决Mac上午发传输文件到NTFS存储U盘上.zip

Mounty解决Mac上午发传输文件到NTFS存储U盘上。以为mac是不支持的，只需要轻轻点击这个文件包，就可以实现传输了！

2019-05-16

FlinkAPI.CHM

Flink官方文档，Flink1.9.0API,分别有javaAPI、scalaAPI、PythonAPI 在一个文件里面哦，自己搞的，比较方便~

2019-09-05

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人