2021-06-22

初衷:

这个学期要参加数学建模比赛了,经过哥哥的引导,发现机器学习与数学建模有异曲同工之妙,而前者有更宽广的应用,所以果断学习机器学习。
第一步:

熟悉Python的核心语法,包括:
1.序列-索引、切片
2.序列-加法、乘法
3.序列-常用的内置函数
4.列表基础操作1
5.列表方法2
6.列表的排序和逆序
7.列表推导式
8.二维列表
9.元组
10.字典-基础操作
11.字典常用函数(clear、get、items、keys、values、pop)
12.字典-混合字典和字典推导式
13.python集合类型介绍
14.集合的运算(交集、并集和差集)
15.字符串基础操作
16.字符串常用方法
17.字符串的测试方法
18.字符串修改、搜索和替换方法
19.格式化字符串
同时,学习各种分类算法

  1. K-Nearest Neighbors(KNN算法)
  2. decision trees(决策树)
  3. naive Bayes(NB 算法)
  4. Logistic regression(逻辑回归)
  5. support vector machines(支持向量机)

第二步:
学习Python的函数、面向对象编程等,包括:

函数:
1.函数的创建和调用
2.函数的参数传递
3.函数的返回值
4.变量的作用域
5.匿名函数
6.三大基础函数
7.递归函数
8.内置函数

面向对象编程
1.面向对象编程
2.类的定义、构造方法和参数传递
3.类方法
4.继承、重写和多态

同时,学习Python数据可视化的技巧。

第三步:

实战,其实这是一以贯之的流程,必须在实战中锻炼自己的技术。

在你提到的 SQL 查询中: ```sql select id, stt dt, 1 p from test5 union select id, edt dt, -1 p from test5 ``` 这里的 `p` 是一个人为添加的 **标志字段(或称为权重字段)**,用来表示某个时间点是“主播上线”还是“主播下线”。 --- ### ✅ `p` 字段的作用解释如下: - `p = 1`:表示在该时间点有一个主播 **开始直播(上线)** - `p = -1`:表示在该时间点有一个主播 **结束直播(下线)** 这个技巧常用于解决“**最多重叠区间问题**”,比如求**同一时刻最多有多少个主播在线**。 我们将每个开播时间标记为 +1,关播时间标记为 -1,然后按时间顺序排序,对 `p` 值做累加(前缀和),就可以得到任意时刻正在直播的主播人数。 --- ### 🔍 举个例子说明 原始数据: | id | stt | edt | |------|----------------------|----------------------| |1001|2021-06-14 12:12:12|2021-06-14 18:12:12| |1003|2021-06-14 13:12:12|2021-06-14 16:12:12| 转换后变成事件流(t1): | id | dt | p | |------|----------------------|----| |1001|2021-06-14 12:12:12| 1 | ← 开播 +1 |1003|2021-06-14 13:12:12| 1 | ← 开播 +1 |1003|2021-06-14 16:12:12|-1 | ← 下播 -1 |1001|2021-06-14 18:12:12|-1 | ← 下播 -1 然后我们按照 `dt` 时间排序,计算累计值(即当前在线主播数): ```text 时间 事件类型 当前人数变化 累计在线人数 2021-06-14 12:12:12 开播(id=1001) +1 1 2021-06-14 13:12:12 开播(id=1003) +1 2 2021-06-14 16:12:12 下播(id=1003) -1 1 2021-06-14 18:12:12 下播(id=1001) -1 0 ``` 所以最高同时在线人数是 **2人**。 --- ### 📌 完整 SQL 思路(以 Hive/MySQL 为例) ```sql -- 第一步:将开播和关播转为带符号的事件流 with events as ( select id, stt as dt, 1 as p from test5 union all select id, edt as dt, -1 as p from test5 ), -- 第二步:按时间排序,注意时间相同时,优先处理上线再处理下线?实际建议:同时间先+1后-1 sorted_events as ( select dt, p from events order by dt, p desc -- 先处理 +1 再处理 -1,防止漏算峰值 ) -- 第三步:使用窗口函数累加 p,找出最大值 select max(online_cnt) as max_concurrent_streamers from ( select dt, sum(p) over (order by dt, p desc rows between unbounded preceding and current row) as online_cnt from sorted_events ) t; ``` > 💡 注意:这里用 `UNION ALL` 比 `UNION` 更高效,因为不需要去重。 --- ### ❗关键点总结 - `p` 是一个虚拟的增量字段,用于统计人数变化。 - 把每一个“开始”看作 +1,“结束”看作 -1,构建时间轴上的变化事件。 - 对这些事件按时间排序累加 `p`,就能得到每一时刻的在线人数。 - 最大累加值就是平台最高峰同时在线的主播人数。 --- ### ✅ 示例 Python 实现(便于理解逻辑) ```python from datetime import datetime # 模拟数据 data = [ (1001, '2021-06-14 12:12:12', '2021-06-14 18:12:12'), (1003, '2021-06-14 13:12:12', '2021-06-14 16:12:12'), (1004, '2021-06-14 13:15:12', '2021-06-14 20:12:12'), (1002, '2021-06-14 15:12:12', '2021-06-14 16:12:12'), (1005, '2021-06-14 15:18:12', '2021-06-14 20:12:12'), (1001, '2021-06-14 20:12:12', '2021-06-14 23:12:12'), (1006, '2021-06-14 21:12:12', '2021-06-14 23:15:12'), (1007, '2021-06-14 22:12:12', '2021-06-14 23:10:12'), ] events = [] for row in data: _id, stt_str, edt_str = row stt = datetime.strptime(stt_str, '%Y-%m-%d %H:%M:%S') edt = datetime.strptime(edt_str, '%Y-%m-%d %H:%M:%S') events.append((stt, 1)) events.append((edt, -1)) # 排序:先按时间,再按 +1 在前、-1 在后 events.sort(key=lambda x: (x[0], -x[1])) online = 0 max_online = 0 for time, delta in events: online += delta if online > max_online: max_online = online print("平台最高峰同时在线主播人数:", max_online) ``` 输出结果为: ``` 平台最高峰同时在线主播人数: 4 ``` (你可以验证:在 `2021-06-14 15:18:12 ~ 16:12:12` 之间有 4 位主播同时在线) --- ###
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值