2021-09-22

部署运行你感兴趣的模型镜像

[软件工程应用与实践]lingvo学习笔记

2021SC@SDUSC

Lingvo是一个tensorflow框架,提供了深度学习协同研究的完整解决方案,专注于seq2seq模型。Lingvo模型有一下模块化的building block组成,非常灵活与容易扩展,中心化实验配置管理以及高度可定制的能力。框架直接支持分布式训练以及量化推理,包含了大量已有的工具、辅助函数、以及最新的研究的想法。

参考论文

Lingvo: a Modular and Scalable Framework
for Sequence-to-Sequence Modeling

学习计划

  • 学习TensorFlow
  • 读lingvo代码

lingvo

  • 序列到序列模型

模型将任意长度的输入序列映射到任意长度的输出序列。序列到序列的示例用法模型包括机器翻译,它从一个单词映射出一个单词序列语言变成另一种语言中具有相同意思的一系列单词;语音识别,将一系列声学特征映射到一个序列中的单词; 以及文本摘要将一系列的单词映射成更短的表达相同意思的单词序列。

  • 所需基础知识

** 递归神经网络
** LSTM
** 注意力机制
** Tensorflow

  • 环境配置
    安装lingvo显示无法找到
    使用cookiecutter为conda创建python包模板, 导包失败
    原文档提供控制台安装方式失败
    返回查看原文档, 发现可以克隆仓库后用Bazel软件进行安装
    github下载bazel并安装
    Bazel安装
    bazel安装方式

参考链接
bazel安装

更新bazel

$ sudo apt-get update && sudo apt-get install bazel

下载环境

$ sudo apt-get install pkg-config zip g++ zlib1g-dev unzip

运行bazel

$ chmod +x bazel-version-installer-os.sh
$ ./bazel-version-installer-os.sh --user
  • 安装tensorflow
    控制台输入指令
pip install tensorflow

检验tensorflow是否安装完成

tensorflow

安装成功

  • 安装C++编译器(已完成)
  • python -m module 链接到bazel run 中运行

pip:

python3 -m lingvo.trainer --job=evaler_test --run_locally=cpu --mode=sync --model=mnist.LeNet5 --logdir=/tmp/mnist/log

Bazel:

bazel-bin/lingvo/trainer --job=evaler_test --run_locally=cpu --mode=sync --model=image.mnist.LeNet5 --logdir=/tmp/mnist/log --logtostderr

参考 雅各布 lingvo框架笔记
lingvo框架总览

分工

lingvo由Models、Tasks、Layers、Input Generators、Params、Experiment Configuration、Job Runners、nestedMap和Custom ops九个组件组成。

我负责后四个组件。

您可能感兴趣的与本文相关的镜像

TensorFlow-v2.15

TensorFlow-v2.15

TensorFlow

TensorFlow 是由Google Brain 团队开发的开源机器学习框架,广泛应用于深度学习研究和生产环境。 它提供了一个灵活的平台,用于构建和训练各种机器学习模型

我们来逐步分析你提出的问题,先从 SQL 语句的逻辑入手,再解释为什么会出现 `null` 值,以及为什么在“9-15”这一行中窗口函数返回的是 `2021-06-21`(比当前行的结束时间还大),最后给出正确计算每个品牌**去重后总打折天数**的方法。 --- ### ✅ 你的SQL语句是: ```sql SELECT brand, stt, edt, MAX(edt) OVER ( PARTITION BY brand ORDER BY stt ROWS BETWEEN UNBOUNDED PRECEDING AND 1 PRECEDING ) AS maxEdt FROM test4; ``` 作用:对每个品牌的促销活动按开始日期排序,然后为每一行计算 **之前所有行中最大的结束日期(edt)**。 --- ## 🔍 问题1:为什么第一行 `maxEdt` 是 `null`? 看 redmi 的第一条记录: ``` redmi 2021-06-05 2021-06-21 null ``` 因为这是一组(brand=redmi)中的**第一行**。 窗口定义是: > `ROWS BETWEEN UNBOUNDED PRECEDING AND 1 PRECEDING` 意思是:“从该分组的第一行到当前行的前一行”。 但当前行是第一行,它前面没有数据 → 所以前面的行集合为空集 → `MAX(edt)` 在空集上运算结果为 `NULL`。 ✅ **结论**:第一个活动没有“之前的活动”,所以 `maxEdt = NULL` 是正常的。 --- ## 🔍 问题2:为什么第二行(2021-06-092021-06-15)的 `maxEdt = 2021-06-21`? 看第二条 redmi 记录: ``` redmi 2021-06-09 2021-06-15 2021-06-21 ``` 注意!虽然当前行的 `edt=2021-06-15`,但它的 `maxEdt` 来自于前面所有行的最大 `edt`,也就是第一行的 `edt=2021-06-21`。 ⚠️ 关键点: 窗口函数 `MAX(edt)` 是取历史行中 `edt` 字段的值,并不是和当前行有关。 即使当前行的 `edt` 较小(如 6月15日),只要前面某行的 `edt` 更晚(如 6月21日),就会被保留下来。 所以这里 `maxEdt = 2021-06-21` 是完全正确的。 💡 这个值的意义是:**在当前这次活动开始之前,该品牌最后一次可能还在打折的时间点(即最大结束日)**。 这个技巧常用于判断是否有时间重叠! --- ## ✅ 如何用这个字段判断是否连续或重叠? 我们可以利用 `maxEdt` 和当前行的 `stt` 比较: - 如果 `stt <= maxEdt`:说明当前活动与前面某个活动有重叠或紧接 → 可以合并 - 否则:中间有空档 → 不连续,需要新开一个区间 这是典型的“合并区间”问题,在数据库中可通过以下方式解决: --- ## ✅ 正确解法:计算每个品牌去重后的总打折天数(处理交叉日期) ### Step 1: 排序并找出是否属于同一连续区间(使用 `start_gap_flag`) ```sql WITH ordered_data AS ( SELECT brand, stt::date, edt::date FROM test4 ), marked_gaps AS ( SELECT brand, stt, edt, -- 如果当前开始时间 > 之前所有活动的最大结束时间,则说明断开了 CASE WHEN stt > MAX(edt) OVER ( PARTITION BY brand ORDER BY stt ROWS BETWEEN UNBOUNDED PRECEDING AND 1 PRECEDING ) THEN 1 ELSE 0 END AS is_new_period FROM ordered_data ), -- Step 2: 使用累计标志划分不同的连续区间 grouped_periods AS ( SELECT brand, stt, edt, SUM(is_new_period) OVER ( PARTITION BY brand ORDER BY stt ROWS UNBOUNDED PRECEDING ) AS period_id FROM marked_gaps ), -- Step 3: 对每个 period 取最小 stt 和最大 edt(即合并后的区间) merged_periods AS ( SELECT brand, MIN(stt) AS period_stt, MAX(edt) AS period_edt FROM grouped_periods GROUP BY brand, period_id ) -- Step 4: 计算每个品牌总的不重复天数 SELECT brand, SUM(period_edt - period_stt + 1) AS total_discount_days FROM merged_periods GROUP BY brand ORDER BY brand; ``` --- ### 📌 代码解释: 1. **`ordered_data`**:确保日期类型为 `date`,避免字符串比较出错。 2. **`marked_gaps`**: - 使用窗口函数获取此前所有区间的最大结束日。 - 若当前开始日 > 此前最大结束日 → 新周期开始(`is_new_period = 1`)。 3. **`grouped_periods`**: - 利用 `SUM(...) OVER (...)` 构造唯一 `period_id`,将连续或重叠的区间归为一组。 4. **`merged_periods`**: - 按 `brand + period_id` 分组,取每段的起止时间。 5. **最终统计**: - 每个合并区间的天数 = `end - start + 1`(包含首尾)。 - 累加得到各品牌总天数。 --- ### 🧮 示例输出(基于你的数据): | brand | total_discount_days | |--------|---------------------| | huawei | 22 | | oppo | 17 | | redmi | 22 | | vivo | 17 | #### 验证一下: - **vivo**: - 第一段:6.5 ~ 6.15 (11天) - 第二段:6.9 ~ 6.21(重叠了6.9~6.15) - 合并后:6.5 ~ 6.21 → 共 17 天 ✅ - **redmi**: - 6.5~6.21,6.9~6.15(完全包含),6.17~6.26 - 前两段已覆盖到6.21,第三段6.17 < 6.21 → 重叠 - 合并为 6.5 ~ 6.26 → 共 22 天 ✅ - **huawei**: - 6.5~6.26,6.9~6.15(包含),6.17~6.21(也在范围内) - 整体就是 6.5~6.26 → 22 天 ✅ --- ## ✅ 回答总结: - `maxEdt` 出现 `NULL` 是因为第一行前面没有数据,符合窗口定义。 - `maxEdt` 显示比当前 `edt` 大,是因为它反映的是**之前活动中最晚结束时间**,而非当前行。 - 要准确统计去重天数,必须先**合并重叠/连续的时间区间**,不能简单相加。 - 上述 SQL 完整实现了“按品牌合并打折时间段并计算总天数”的需求。 --- ###
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值