本周AI热点回顾：六个神经网络debug实用技巧；AI高仿你的笔迹只需1个词，Deepfake文字版来了...

转载于 2021-06-13 21:00:00 发布 · 760 阅读

文章标签：

#神经网络 #python #机器学习 #人工智能 #深度学习

部署运行你感兴趣的模型镜像

‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍点击左上方蓝字关注我们

神经网络debug太难了，这里有六个实用技巧

神经网络的 debug 过程着实不容易，这里是一些有所帮助的 tips。

基于神经网络的项目瓶颈通常并非对网络的实现。有时候，在编写了所有代码并尝试了一大堆超参数配置之后，网络就是无法正常工作。尤其是面对着数百万的参数, 任何一个小变动都有可能前功尽弃。

在面对各种各样的问题后，有人总结了一些帮助调试神经网络的实用 tips，希望能够减少大家调试神经网络的成本。

检查梯度问题

有时梯度是引发问题的原因。下面是几种与梯度相关的调试方法：

数值计算每个权重的梯度。这通常被称为「梯度检查」，有助于确保正确计算梯度，其中一种方法是使用有限差分。
比较每个权重的大小和梯度的大小。要确保大小的比率是合理的。如果梯度大小远小于权重大小，网络将花费很长时间进行训练。如果梯度大小与权重大小大致相同或更大，网络将非常不稳定，可能根本不会训练。
检查梯度爆炸或消失。如果梯度变为 0 或 nan/infinity，则可以确定网络没有被正确训练。需要首先弄清楚为什么会发生爆炸 / 消失梯度，是否步数太大。一旦弄清楚梯度爆炸 / 消失的原因，就有各种解决方案来解决这个问题，例如添加残差连接以更好地传播梯度或简单地使用较小的网络。
激活函数也会导致梯度爆炸 / 消失。如果 sigmoid 激活函数的输入太大，梯度将非常接近 0。随着时间的推移检查激活函数的输入，然后确保这些输入不会导致梯度始终为 0 或很大。

检查训练过程

经常检查网络的训练进度可以节省时间。以训练贪吃蛇游戏为例，不是训练网络好几天，然后再检查网络是否学到了什么，而是每十分钟用当前学到的权重运行游戏。几个小时后，如果我们注意到每次都在做同样的事情并且获得零奖励，就知道可能有问题了，而这节省了几天的训练时间。

不要依赖定量输出

如果只查看定量输出，我们可能会错过有用的调试信息。例如，在训练语音翻译网络时，比起只检查评估函数是否在减少，更重要的是阅读翻译后的语音以确保它有意义；当训练一个用于图像识别的网络时，一定要确保手动检查网络提供的标签。

不应该依赖定量输出的原因有两个：首先，评估函数中可能存在错误。如果只查看错误评估函数输出的数字，可能需要数周时间才能意识到出现问题。其次，在神经网络输出中可能存在无法定量显示的错误模式。我们可能会意识到某个特定单词总是被错误翻译，或者在左上象限的图像识别网络总是错误的。这些观察结果反过来可以帮助找到数据处理部分的代码 bug，否则这些 bug 将被忽视。

尝试小数据集

确定代码是否存在 bug 或数据是否难以训练的另一种方法是首先拟合较小的数据集，比如将数据集中 100000 个训练示例修剪成只有 100 个甚至 1 个训练示例。如果在一个训练示例的情况下，网络仍然有很高的测试错误，不能够非常好地拟合数据，那么几乎可以肯定网络代码有问题。

尝试更简单的网络

如果全尺寸网络在训练时遇到问题，可以尝试使用层数较少的较小网络，这样可以更快地训练。如果较小的网络在全尺寸网络失败的情况下成功了，则表明全尺寸模型的网络架构过于复杂。如果简单网络和全尺寸网络都失败，则代码中可能存在 bug。

试着使用框架

如果没有使用机器学习框架编写神经网络的代码，那么可以通过在机器学习框架中编写相同的网络架构来检查问题何在。然后将打印语句放入非框架版本和框架版本中逐层比较输出，直到找到打印语句出现差异的位置，即错误所在。如果在反向传播期间发生错误，则可以从最后一层开始逐层打印权重的渐变，直到找到差异。但是此方法仅适用于网络的第一次迭代，因为由于第一次迭代输出的差异，第二次及以后的迭代将具有不同的起点。

信息来源：机器之心

AI高仿你的笔迹只需1个词，Deepfake文字版来了，网友：以假乱真太可怕

终于，我小学时的梦想有人实现了！只需要我拍下自己的笔迹，AI就能帮我誊抄英语作业，画风“完全一致”的那种：

甚至帮别人抄作业也没问题……

简直吊打一批只能仿手写、价格还动辄几百上千的“作业神器”。

这是Facebook AI最新出品的“文字风格刷”（TextStyleBrush），它只需要一张笔迹的照片，就能完美还原出一整套文本字迹来。这样看来，现在就连照片文字，也不一定是真实的了。

比格式刷还强：文本也能换

在实际使用过程中，TextStyleBrush真的就是个格式刷，哪里需要刷哪里。它真正厉害的就是模拟手写字体。只需输入一段文本内容，加上你的笔迹，1个单词即可，它就能生成“手写版”。

这个效果，用肉眼看真的是分辨不出真伪！模拟特定字体格式时，TextStyleBrush表现也很不错。除了直观的效果，开发人员对合成图片也做了数据上的分析。TextStyleBrush生成的图片在合成误差（MSE）上大幅降低，峰值信噪比（PSNR）和结构相似性（SSIM）也提高不少。

在文字识别的准确性上，TextStyleBrush在三组数据集中的表现都不错：准确率都高达95%以上。

信息来源：量子位

轻松搭建AI助理机器人，预训练模型数量300+，支持云原生部署，PaddleHub2.1再升级

熟悉飞桨的开发者，一定对这个项目印象深刻：PaddleHub

无论是新手入门还是AI创造营，都给大家带来很多有趣的项目。

目前累计Star数量已超过5.1K，远远超过其它框架的同类产品！

频频登上Github Trending日榜月榜，

称它为 预训练模型应用工具方向目前最火的repo绝对不为过！

先看下PaddleHub去年2.0版本升级时候，在GitHub上的star表现：

这个含金量和吸引力，广大的GitHub开发者们自然懂！

最近，PaddleHub 2.1再次升级，又带来五项重要更新：

WeChaty 生态合作，开源Plato-mini，轻松搭建AI助理机器人
预训练模型种类提升至300+ 种，模型搜索页面升级
迁移学习能力升级，动态图编程更简明
新增BentoML云原生服务化部署能力
教程文档全新升级，易用性明显提升

别的不需要多说了，大家上Github点过star之后自己体验吧!

https://github.com/PaddlePaddle/PaddleHub

信息来源：飞桨PaddlePaddle

20亿参数，大型视觉Transformer来了，刷新ImageNet Top1

2020 年 10 月，谷歌大脑团队提出将标准 Transformer 应用于图像，提出了视觉 Transformer（ViT）模型，并在多个图像识别基准上实现了接近甚至优于当时 SOTA 方法的性能。近日，原 ViT 团队的几位成员又尝试将 ViT 模型进行扩展，使用到了包含 30 亿图像的 JFT-3B 数据集，并提出了参数量高达 20 亿参数的 ViT 变体模型 ViT G/14，在 ImageNet 图像数据集上实现了新的 SOTA Top-1 准确率。

基于注意力机制的 Transformer 架构已经席卷了 CV 领域，并成为研究和实践中日益流行的选择。此前，Transformer 被广泛用于 NLP 领域。有研究者仔细研究了自然语言处理中 Transformer 最优扩展，主要结论是大型模型不仅性能更好，而且更有效地使用了大量计算预算。

然而，目前尚不清楚这些发现在多大程度上能够迁移到视觉领域。例如，视觉中最成功的预训练方案是有监督的，而 NLP 领域是无监督预训练。

在今天介绍的这篇论文中，原 ViT 团队成员、谷歌大脑的几位研究者集中研究了预训练 ViT 模型用于图像分类任务的迁移性能的扩展规则（scaling law）。特别是，研究者试验了从 500 万到 20 亿个参数不等的模型、从 3000 万到 30 亿个训练图像不等的数据集以及从低于 1 个 TPUv3 核每天（core-day）到超过 10000 个核每天的计算预算。其主要贡献是描述 ViT 模型的性能计算边界。

论文链接：https://arxiv.org/pdf/2106.04560.pdf

在这个过程中，研究者创建了一个改进的大规模训练方案，探索了训练超参数以及发现微妙的选择，大幅改善小样本迁移性能。具体来说，研究者发现非常强的 L2 正则化，仅应用于最终的线性预测层，导致学习到的视觉表征具有很强的小样本学习能力。

信息来源：机器之心

你给需求文档，AI就能帮你开发安卓App

用自然语言生成代码不算稀奇，但现在，这项技术涉及的业务范围真是越来越广了。

就有一个叫做Text2App的“AI”，你“喂”给它一串文字需求，它就能直接给你“消化”成安卓应用！

不信你看。

这是输入的文字：

创建一个APP，上面有一个视频、一个按钮，一个文本转语音的功能以及一个手机加速传感器。点击按钮，播放视频；摇晃手机，念出文字“happy Text2App”。

整个过程除了等编译花上几分钟，无需别的代码操作，就能直接生成下面这样一个安卓应用：

不知广大程序员们尤其是安卓开发，看完感觉如何？

正如大家所料，这个框架还是比较初级，目前描述文字需要被限定在一个固定范围：

只能描述11种组件：文本框、按钮、标签、播放器、时间选择器……

能实现的事件、操作等倒是没有明确限制，感兴趣的可以具体测测能实现多少。

目前的功能也很单一，广大安卓开发程序员们还远远不用担心AI“抢饭碗”。

不过研究人员说了，最终目的是使Text2App 成为一个成熟的基于自然语言的APP开发平台。

需要多久呢？还未可知。

论文地址：https://arxiv.org/abs/2104.08301

完整视频及试玩链接：https://text2app.github.io/

信息来源：量子位

飞桨(PaddlePaddle)以百度多年的深度学习技术研究和业务应用为基础，是中国首个开源开放、技术领先、功能完备的产业级深度学习平台，包括飞桨开源平台和飞桨企业版。飞桨开源平台包含核心框架、基础模型库、端到端开发套件与工具组件，持续开源核心能力，为产业、学术、科研创新提供基础底座。飞桨企业版基于飞桨开源平台，针对企业级需求增强了相应特性，包含零门槛AI开发平台EasyDL和全功能AI开发平台BML。EasyDL主要面向中小企业，提供零门槛、预置丰富网络和模型、便捷高效的开发平台；BML是为大型企业提供的功能全面、可灵活定制和被深度集成的开发平台。

END