《预训练周刊》第23期:Smart Bird:解决变换器性能瓶颈的新方法

本文精选近期AI领域的学术研究成果,涵盖了量子交叉熵、稀疏注意力机制、分布式主成分分析、语义分割等多个前沿主题,展示了在理论和技术上的新进展。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

(本期贡献者:申德周 翟珂 吴新刚)

本文来源:智源社区

论文推荐

标题:斯坦福、马里兰大学|Quantum Cross Entropy and Maximum Likelihood Principle(量子交叉熵和最大似然原理)
作者:Zhou Shangnan、Yixu Wang

论文地址:https://www.aminer.cn/pub/6037785391e011d7c73cd3cc?f=cs
简介:量子机器学习是机器学习和量子计算交叉的新兴领域。经典交叉熵在机器学习中起着核心作用。作者定义它的量子概括,即量子交叉熵,证明了它的下界,并研究了它与量子保真度的关系。在经典情况下,最小化交叉熵等效于最大化可能性。在量子情况下,当量子交叉熵是由量子数据构建的不受量子测量的干扰,这种关系成立。经典交叉熵等于负对数似然。当作者通过经验密度矩阵获得量子交叉熵时在测量结果上,量子交叉熵的下限为负对数似然。这两种不同的场景说明了进行量子测量时的信息丢失。作者得出的结论是,要实现全量子机器学习的目标,利用延迟测量原则。

标题:清华、微软|Smart Bird: Learnable Sparse Attention for Efficient and Effective Transformer(Smart Bird:可学习的稀疏注意力高效、有效的变换器)

论文地址:https://www.aminer.cn/pub/612347ee5244ab9dcb5dc2a6?f=cs
作者:Chuhan Wu、Yongfeng Huang
简介:本文提出了一种解决变换器性能瓶颈的新方法。变换器在自然语言处理取得了巨大的成功。然而,变换器中的自注意力机制二次复杂度使其在处理长序列时效率低下。许多现有的文章探索通过计算稀疏而不是密集的来加速变换器自注意力,通常在某些位置关注符号或随机选择的符号。但是,手动选定的或随机的符号可能无法提供上下文建模的信息。在本文中,作者提出Smart Bird,这是一种高效且具有可学习稀疏注意力的有效变换器。在Smart Bird中,作者首先计算一个带有单头的注意矩阵低维草图变换器,旨在发现潜在的重要相互作用符号。然后作者根据符号对进行采样他们的概率分数来自绘制注意力矩阵以生成不同的注意力头的稀疏注意力索引矩阵。最后,作者根据索引矩阵选择标记嵌入以形成稀疏注意力网络的输入。在六个基准数据集上进行了广泛的实验对于不同的任务验证效率和Smart Bird在文本建模中的有效性。

标题:罗格斯大学|FAST-PCA: A Fast and Exact Algorithm for Distributed Principal Component Analysis(FAST-PCA:一种快速准确的分布式主成分分析算法

论文地址:https://www.aminer.cn/pub/612c4c295244ab9dcbca24a9?f=cs
作者:Arpita Gang, Waheed U. Bajwa
简介:本文提出一种分布式降维方法。主成分分析 (PCA) 是机器学习领域的基本数据预处理工具。虽然PCA常被称为降维,但PCA的目的其实有两个:降维和特征学习。此外,现代数据集中的维度和样本量巨大使得无法使用集中式 PCA 解决方案。在这方面,本文重新考虑了 PCA 的问题,当数据样本分布在任意连接的网络中的节点上。虽然分布式PCA的一些解决方案存在那些要么忽略了特征学习目的部分,要么有通信开销使他们低效和/或缺乏精确的收敛保证。为了解决上述问题,本文提出了一个分布式PCA算法称为FAST-PCA。所提出的算法在通信方面是有效的,可以证明线性地收敛到导致降维主成分以及不相关的特征。作者的主张得到了实验结果的进一步支持。

标题:中科大|ISNet: Integrate Image-Level and Semantic-Level Context for Semantic Segmentation(ISNet:基于集成图像级和语义级上下文语义分割)

论文地址:https://www.aminer.cn/pub/612c4c295244ab9dcbca24b0?f=cs

代码地址:https://github.com/SegmentationBLWX/sssegmentation
作者:Zhenchao Jin, Bin Liu
简介:本文通过聚合上下文来增强语义图像分割任务中的像素表示。现有的方法侧重于从上下文建模整个图像的视角,即聚合图像级别的上下文信息。尽管令人印象深刻,这些方法削弱了同一类别的像素表示的重要性,即语义级上下文信息。为了解决这个问题,本文提出通过聚合来增强像素表示分别是图像级和语义级上下文信息。首先,设计了一个图像级上下文模块捕获图像中每个像素的上下文信息整个图像。其次,作者聚合了在真值监督下学习类别区域的每个像素的相同类别分割。第三,作者计算之间的相似度每个像素表示和图像级上下文信息,分别是语义级上下文信息。最后,一个像素表示被增强加权聚合图像级上下文信息和语义级上下文信息权重的相似性。集成图像级和语义级上下文使本文能够报告四个基准的最新准确性,即ADE20K、LIP、COCOStuff和城市景观。

标题:Copper City Labs | UzBERT:为乌兹别克语预训练BERT模型

论文地址:https://www.aminer.cn/pub/6125b0035244ab9dcb38a520?f=cs
作者:B. Mansurov、A. Mansurov
简介:本文介绍了一种乌兹别克语语言模型。基于Transformer体系结构的预训练语言模型,在各种自然语言处理任务(如词性标注、命名实体识别和问答)中取得了最新成果。在本文中,作者提出了UzBERT:一种基于BERT结构的预训练乌兹别克语模型。UzBERT模型在掩蔽语言模型的准确性上大大优于多语言的BERT。UzBERT的优点之一是的词汇量更小(因此需要更少的资源进行微调)并且理论上能够更好地捕获语言的复杂性,因为只在乌兹别克语文本上训练。由于乌兹别克缺乏下游任务的公共数据集,本研究暂时无法测试其在此类任务上的性能。因此未来工作的方向之一是生产这些数据集并评估下游任务。

标题:伯克利与斯坦福大学 | C5T5模型:基于Transformers可控生成有机分子

论文地址:https://www.aminer.cn/pub/6125b0115244ab9dcb38b16e?f=cs
作者:Daniel Rothchild、Joseph Gonzalez
简介:本文研究了用于分子生成的变换器模型。设计具有所需特性的有机材料的方法在医学、可再生能源、石化工程和农业等领域具有很大的潜在影响。然而,使用生成模型来设计具有所需特性的物质是很困难的,因为候选化合物必须满足多个约束条件,包括合成可访问性和其他对领域专家来说很直观但难以量化的指标。作者在本研究中提出 C5T5:一种新颖的自监督预训练使变换器能够进行零样本选择和替换编辑的方法,将有机物质改变为所需的属性值。C5T5 对 IUPAC 名称(一种标准化的分子表示)进行操作,可为有机化学家直观地编码丰富的结构信息,但在很大程度上被 ML 社区所忽视。本研究的技术不需要经过编辑的分子对来训练,只需要粗略估计分子特性,并且它有可能比基于图形的方法更容易地对长程依赖性和对称分子结构进行建模。

标题:美国宾州坦普尔大学 | BERT嵌入在Twitter数据中预测灾难的有效性

论文地址:https://www.aminer.cn/pub/6125b0145244ab9dcb38b735?f=cs
作者: Ashis Kumar Chanda
简介:Twitter 等社交媒体提供了一个与其他人分享和交流个人经历的通用平台。人们经常在社交媒体上发布他们的生活经历、当地新闻和事件以告知他人。许多救援机构定期监控此类数据,以识别灾害并降低生命风险。然而,人类无法手动检查海量数据并实时识别灾害。BERT 已成功用于不同的自然语言处理任务,但目前尚没有具体分析这些表示如何有助于灾难类型的推文分析。在这项研究工作中,作者探索了 BERT 嵌入在从 Twitter 数据预测灾难方面的功效,并将其与传统的无上下文词嵌入方法(GloVe、Skip-gram 和 FastText)进行了比较。为此,作者同时使用传统的机器学习方法和深度学习方法。作者为这项研究提供了定量和定性结果。结果表明,BERT 嵌入在灾难预测任务中比传统词嵌入具有最好的结果。

标题:德国汉堡大学 | 电影有多可恨?电影字幕的研究与预测

论文地址:How Hateful are Movies? A Study and Prediction on Movie Subtitles

论文地址:https://www.aminer.cn/pub/6125b0155244ab9dcb38b746?f=cs
作者:Niklas von Boguszewski, Sana Moin, Anirban Bhowmick等
简介:作者研究了电影中仇恨言论的检测技术。研究引入了一个新的数据集,该数据集收集了六部电影的字幕,其中每一句话都被标注为仇恨、冒犯或正常。在现有的社交媒体数据集(来自Twitter和福克斯新闻)上应用领域适应和微调的迁移学习技术。作者评估了11k电影字幕上的不同表示,比如词袋(BoW)、双向长短时记忆(Bi-LSTM)和来自Transformer的双向编码器表示(BERT)。其中BERT模型获得了77%的最佳宏观平均F1分数。因此,本研究最终证明了社交媒体领域的迁移学习:可以有效地通过字幕对电影中的仇恨和攻击性言论进行分类。

标题:谷歌 | Multi-Task Self-Training for Learning General Representations(用于学习通用表征的多任务自训练)

论文地址:https://www.aminer.cn/pub/612706705244ab9dcbdfe62f?f=cs
作者:Golnaz Ghiasi, Barret Zoph
简介:本文研究了多任务自训练学习通用表征。对于计算机视觉来说,学习一个对许多任务都有效的单一通用模型仍然是一个挑战。本文介绍了多任务自训练(MuST),它利用独立的专业教师模型中的知识来训练一个单一的通用学生模型。本文的方法分为三个步骤,首先在已标记的数据集上独立训练专业教师;然后使用专业教师来标记未标记的数据集,以创建一个多任务的伪标签数据集;最后,使用包含了在不同数据集/任务上训练的教师模型的伪标签,然后用来训练一个多任务学习的学生模型。作者在6个包括图像识别和三维几何估计的视觉任务上评估学生模型的特征表示,在大规模数据集训练时优于专门的监督模型和自监督模型。

标题:UCLA、犹他大学 | Harms of Gender Exclusivity and Challenges in Non-Binary Representation in Language Technologies(性别排他性的危害和语言技术中的非二元表征的挑战)

论文地址:https://www.aminer.cn/pub/612c4c285244ab9dcbca21b8?f=cs
作者:Kai-Wei Chang,Sunipa Dev
简介:本文分析了预训练模型中存在的伦理偏见。在语言任务中以及在审查语言模型所传播的陈规定型观念时,性别问题是一个广泛讨论的话题。然而,目前主流将性别视为二元,这可能会延续一些伤害,如对非二元性别身份的循环抹杀。这些伤害是由模型和数据集的偏见驱动的,是社会对非二元性别不承认和缺乏理解的后果。本文解释了性别和围绕它的语言的复杂性,并对非二元人士进行了调查,以了解与英语语言技术中对性别的二元处理有关的伤害。本文还详细介绍了目前的语言表征,如GloVe、BERT,是如何捕捉和延续这些伤害的,以及为使公平地编码性别信息而需要承认和解决的相关挑战。

研究动态
标题:普林斯顿、MIT|提示:在 NLP 任务中使用语言模型的更好方法

论文地址:https://www.aminer.cn/pub/5fef1dfc91e0113b265a0220?f=cs

代码地址:https://github.com/princeton-nlp/LM-BFF
作者:Tianyu Gao, Danqi Chen
简介:本文讨论了提升预训练语言模型迁移效果的提示方法。最近的 GPT-3 模型仅通过利用自然语言就实现了卓越的少样本性能提示和一些任务演示作为输入上下文。受到他们发现的启发,作者在更实际的场景中研究小样本学习,作者使用较小的语言模型微调在计算上是有效的。作者提出了 LM-BFF——更好的小样本语言模型的微调——一套用于在少量语言模型上微调语言模型的简单且互补的技术注释的例子。作者的方法包括(1) 基于提示的微调用于自动生成提示的新型流水线;(2) 动态优化策略并有选择地结合示范进入每个上下文。最后,作者提出了一个系统的评估,用于分析一系列 NLP 任务的小样本性能,包括分类和回归。作者的实验证明作者的方法结合起来在这种低资源设置中显著优于标准微调程序,实现高达 30% 的绝对改进,11%所有任务的平均值。作者的方法使对任务资源和领域专业知识的最小假设,因此构成了一个强大的用于小样本学习的任务无关方法。

标题:普林斯顿大学 | 基于预训练模型的云计算实时异常检测系统CloudShield

论文地址:https://www.aminer.cn/pub/612338c25244ab9dcb3afa59?f=cs
作者:Zecheng He、 Ruby B. Lee
简介:本文介绍了基于预训练模型的云计算异常检测任务应用。如果可以通过自动异常检测系统检测到可疑活动是可取的,但相关问题迄今仍未解决,具体的挑战是:如何表征云服务器的正常行为、区分良性和恶意异常/攻击、以及防止因误报引起的警报疲劳。作者针对性地提出了 CloudShield:一个实用且可推广的实时异常和云计算攻击检测系统。Cloudshield 使用通用的、预训练的具有不同云工作负载的深度学习模型,通过检查模型重构误差分布来预测正常行为并提供实时和连续检测。一旦检测到异常,为了减少警报疲劳,CloudShield 会通过检查预测错误分布自动区分良性程序、已知攻击和零日攻击。作者在代表性云基准测试中评估了提议的 CloudShield。经实验评估:使用模型预训练的CloudShield可以适用于广泛的云工作负载,特别是CloudShield 可以在几毫秒内检测到最近提出的推测执行攻击(如 Spectre 和 Meltdown攻击)。此外,研究表明 CloudShield 可以准确区分已知攻击和潜在的零日攻击与良性程序并确定优先级。因此,它可以显著减少高达 99.0% 的误报。

AI赋能的科技情报挖掘系统(AMiner - AI赋能科技情报挖掘)

AMiner是一个科技情报分析与挖掘平台,利用AI为用户高效获取和理解科研情报,内容囊括论文、学者、专利、报告、会议、专题集等多种形式,涵盖计算机科学、医学、通信、地学、物理等40个学科,通过智能推荐引擎、搜索引擎、关注订阅等获取想要的知识。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值