2021-05-12

提速40%的图像识别算法
俄罗斯国立高等经济学院的科学家开发了一种新的图像识别算法,该算法比同类产品快40%,并且能够在视频监控等场景中实现更快的实时处理。通过在不同层加入分类器并采用多重假设检验的方法,该算法能够在控制准确率损失在0.5-1%的前提下提高处理速度。

俄罗斯科学家开发了一种图像识别算法,比同类算法快40%

HSE(俄罗斯国立高等经济学院)大学的一位科学家开发了一种图像识别算法,其工作速度比同类算法快40%。它可以加快基于视频的图像识别系统的实时处理速度。研究结果已发表在《信息科学》(Information Sciences)杂志上。

 

卷积神经网络(CNNs)包含一系列卷积层,在计算机视觉中有着广泛的应用。网络中的每一层都有一个输入和一个输出。图像的数字描述进入第一层的输入端,并在输出端转换成一组不同的数字。结果将转到下一层的输入,依此类推,直到在最后一层中预测图像中对象的类标签为止。例如,这个类可以是人、猫或椅子。为此,CNN在一组具有已知类别标签的图像上进行训练。数据集中每类图像的数量和可变性越大,训练的网络就越精确。

 

如果训练集中只有几个例子,则使用神经网络的附加训练(微调)。CNN被训练来识别来自解决原始问题的相似数据集的图像。例如,当一个神经网络学习识别面孔或他们的属性(情绪、性别、年龄)时,它被初步训练以从照片中识别名人。然后,在可用的小数据集上对所得到的神经网络进行微调,以识别家庭视频监控系统中家庭或亲属的面孔。CNN中的层的深度(数量)越多,它就越准确地预测图像中对象的类型。但是,如果层数增加,则需要更多的时间来识别对象。

 

这项研究的作者,HSE的Nizhny Novgorod校区的Andrey Savchenko教授,在他的实验中能够加速一个预先训练的任意结构的卷积神经网络的工作,该网络由90-780层组成。结果识别速度提高了40%,准确率损失控制在0.5-1%以内。这位科学家依靠统计方法,如序列分析和多重比较(多重假设检验)。

 

“图像识别问题中的决策是由一个分类器做出的,这个分类器是一种特殊的数学算法,它接收一组数字(图像的特征/嵌入)作为输入,并输出一个关于图像属于哪一类的预测。该分类器可以应用于任何一层神经网络的输出。为了识别“简单”的图像,分类器只需要分析来自神经网络第一层的数据(输出)。

 

如果我们已经对所作决定的可靠性有信心,就没有必要再浪费时间了。对于“复杂”的图片,第一层显然不够,你需要继续下一层。因此,分类器被添加到神经网络的几个中间层。该算法根据输入图像的复杂程度决定是继续识别还是完成识别。由于在这样一个过程中控制错误很重要,我应用了多重比较理论:我引入了许多假设,在中间层停止,然后依次测试这些假设。

 

如果第一个分类器已经产生了一个被多假设检验过程认为是可靠的决策,那么算法停止。如果判定不可靠,则神经网络中的计算继续进行到中间层,并重复可靠性检查。

 

正如科学家所指出的,对于神经网络最后几层的输出,可以得到最精确的决策。早期的网络输出分类要快得多,这意味着需要同时训练所有分类器,以便在控制精度损失的同时加快识别速度。例如,由于提前停止导致的误差不超过1%。

 

“对于图像识别来说,高精度总是很重要的。例如,如果人脸识别系统中的决策不正确,那么外部的某个人可以访问机密信息,或者相反,用户将被反复拒绝访问,因为神经网络无法正确识别他。速度有时会被牺牲,但它很重要,例如在视频监控系统中,实时决策是非常可取的,即每帧不超过20-30毫秒。萨夫琴科教授说:“要在此时此地识别视频帧中的物体,快速行动非常重要,同时又不会失去准确性。”。

我们来逐步分析你提出的问题,先从 SQL 语句的逻辑入手,再解释为什么会出现 `null` 值,以及为什么在“9-15”这一行中窗口函数返回的是 `2021-06-21`(比当前行的结束时间还大),最后给出正确计算每个品牌**去重后总打折天数**的方法。 --- ### ✅ 你的SQL语句是: ```sql SELECT brand, stt, edt, MAX(edt) OVER ( PARTITION BY brand ORDER BY stt ROWS BETWEEN UNBOUNDED PRECEDING AND 1 PRECEDING ) AS maxEdt FROM test4; ``` 作用:对每个品牌的促销活动按开始日期排序,然后为每一行计算 **之前所有行中最大的结束日期(edt)**。 --- ## 🔍 问题1:为什么第一行 `maxEdt` 是 `null`? 看 redmi 的第一条记录: ``` redmi 2021-06-05 2021-06-21 null ``` 因为这是一组(brand=redmi)中的**第一行**。 窗口定义是: > `ROWS BETWEEN UNBOUNDED PRECEDING AND 1 PRECEDING` 意思是:“从该分组的第一行到当前行的前一行”。 但当前行是第一行,它前面没有数据 → 所以前面的行集合为空集 → `MAX(edt)` 在空集上运算结果为 `NULL`。 ✅ **结论**:第一个活动没有“之前的活动”,所以 `maxEdt = NULL` 是正常的。 --- ## 🔍 问题2:为什么第二行(2021-06-09 到 2021-06-15)的 `maxEdt = 2021-06-21`? 看第二条 redmi 记录: ``` redmi 2021-06-09 2021-06-15 2021-06-21 ``` 注意!虽然当前行的 `edt=2021-06-15`,但它的 `maxEdt` 来自于前面所有行的最大 `edt`,也就是第一行的 `edt=2021-06-21`。 ⚠️ 关键点: 窗口函数 `MAX(edt)` 是取历史行中 `edt` 字段的值,并不是和当前行有关。 即使当前行的 `edt` 较小(如 6月15日),只要前面某行的 `edt` 更晚(如 6月21日),就会被保留下来。 所以这里 `maxEdt = 2021-06-21` 是完全正确的。 💡 这个值的意义是:**在当前这次活动开始之前,该品牌最后一次可能还在打折的时间点(即最大结束日)**。 这个技巧常用于判断是否有时间重叠! --- ## ✅ 如何用这个字段判断是否连续或重叠? 我们可以利用 `maxEdt` 和当前行的 `stt` 比较: - 如果 `stt <= maxEdt`:说明当前活动与前面某个活动有重叠或紧接 → 可以合并 - 否则:中间有空档 → 不连续,需要新开一个区间 这是典型的“合并区间”问题,在数据库中可通过以下方式解决: --- ## ✅ 正确解法:计算每个品牌去重后的总打折天数(处理交叉日期) ### Step 1: 排序并找出是否属于同一连续区间(使用 `start_gap_flag`) ```sql WITH ordered_data AS ( SELECT brand, stt::date, edt::date FROM test4 ), marked_gaps AS ( SELECT brand, stt, edt, -- 如果当前开始时间 > 之前所有活动的最大结束时间,则说明断开了 CASE WHEN stt > MAX(edt) OVER ( PARTITION BY brand ORDER BY stt ROWS BETWEEN UNBOUNDED PRECEDING AND 1 PRECEDING ) THEN 1 ELSE 0 END AS is_new_period FROM ordered_data ), -- Step 2: 使用累计标志划分不同的连续区间 grouped_periods AS ( SELECT brand, stt, edt, SUM(is_new_period) OVER ( PARTITION BY brand ORDER BY stt ROWS UNBOUNDED PRECEDING ) AS period_id FROM marked_gaps ), -- Step 3: 对每个 period 取最小 stt 和最大 edt(即合并后的区间) merged_periods AS ( SELECT brand, MIN(stt) AS period_stt, MAX(edt) AS period_edt FROM grouped_periods GROUP BY brand, period_id ) -- Step 4: 计算每个品牌总的不重复天数 SELECT brand, SUM(period_edt - period_stt + 1) AS total_discount_days FROM merged_periods GROUP BY brand ORDER BY brand; ``` --- ### 📌 代码解释: 1. **`ordered_data`**:确保日期类型为 `date`,避免字符串比较出错。 2. **`marked_gaps`**: - 使用窗口函数获取此前所有区间的最大结束日。 - 若当前开始日 > 此前最大结束日 → 新周期开始(`is_new_period = 1`)。 3. **`grouped_periods`**: - 利用 `SUM(...) OVER (...)` 构造唯一 `period_id`,将连续或重叠的区间归为一组。 4. **`merged_periods`**: - 按 `brand + period_id` 分组,取每段的起止时间。 5. **最终统计**: - 每个合并区间的天数 = `end - start + 1`(包含首尾)。 - 累加得到各品牌总天数。 --- ### 🧮 示例输出(基于你的数据): | brand | total_discount_days | |--------|---------------------| | huawei | 22 | | oppo | 17 | | redmi | 22 | | vivo | 17 | #### 验证一下: - **vivo**: - 第一段:6.5 ~ 6.15 (11天) - 第二段:6.9 ~ 6.21(重叠了6.9~6.15) - 合并后:6.5 ~ 6.21 → 共 17 天 ✅ - **redmi**: - 6.5~6.21,6.9~6.15(完全包含),6.17~6.26 - 前两段已覆盖到6.21,第三段6.17 < 6.21 → 重叠 - 合并为 6.5 ~ 6.26 → 共 22 天 ✅ - **huawei**: - 6.5~6.26,6.9~6.15(包含),6.17~6.21(也在范围内) - 整体就是 6.5~6.26 → 22 天 ✅ --- ## ✅ 回答总结: - `maxEdt` 出现 `NULL` 是因为第一行前面没有数据,符合窗口定义。 - `maxEdt` 显示比当前 `edt` 大,是因为它反映的是**之前活动中最晚结束时间**,而非当前行。 - 要准确统计去重天数,必须先**合并重叠/连续的时间区间**,不能简单相加。 - 上述 SQL 完整实现了“按品牌合并打折时间段并计算总天数”的需求。 --- ###
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值