BERT embedding 降维--BERT whitening

原创

已于 2022-05-23 21:33:43 修改 · 2.9k 阅读

12 ·

CC 4.0 BY-SA版权

文章标签：

#自然语言处理

于 2022-04-12 21:55:44 首次发布

该博客介绍了如何利用BERT-whitening技术将高维嵌入向量（如768维）降至256维。通过计算kernel和bias，实现向量的线性变换，并进行标准化处理。文章引用了苏剑林的两篇博客作为参考，讨论了BERT-whitening的超参数调整及其效果。

利用BERT whitening可以将embedding 比如768维降到256维

def compute_kernel_bias(vecs, n_components=256):
    """计算kernel和bias
    vecs.shape = [num_samples, embedding_size]，
    最后的变换：y = (x + bias).dot(kernel)
    """
    mu = vecs.mean(axis=0, keepdims=True)
    cov

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

AI强仔

关注关注

2
点赞
踩
12

收藏

觉得还不错? 一键收藏
5
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

专栏目录

Bert-whitening 向量降维及使用

weixin_42357472的博客

06-24

1656

参考：https://kexue.fm/archives/8069 https://kexue.fm/archives/9079 https://zhuanlan.zhihu.com/p/531476789输入：vv是多个向量组成的三维矩阵结果：v_data1 256维度 ***线上单个向量就把上面整体计算出的kernel,bias用上，直接transform_and_normalize(v_data, kernel=kernel, bias=bias)就行线上单个向量降维......

BERT 获取最后一层或每一层网络的向量输出

weixin_42357472的博客

10-21

1万+

参考：https://zhuanlan.zhihu.com/p/422533717 https://blog.youkuaiyun.com/sunyueqinghit/article/details/105157609 transformer输出的结果 last_hidden_state：shape是(batch_size, sequence_length, hidden_size)，hidden_size=768,它是模型最后一层输出的隐藏状态 pooler_output：shape是(batch_size, hid

5 条评论您还未登录，请先登录后发表或查看评论

【自然语言处理】BERT-Whitening

bqw的博客

09-05

4039

苏神论文：https://arxiv.org/pdf/2103.15316.pdf BERT-Whitening BERT虽然很成功，但是通过BERT来获取句子嵌入仍然是个问题。先前的研究认为BERT获取的句嵌入向量存在各向异性的问题，导致cosine相似度无法度量句子间的语义相似性。BERT-Whiteing\text{BERT-Whiteing}BERT-Whiteing通过简单的白化操作，将嵌入向量转化为各向同性。一、假设 cosine相似度对于输入向量有什么假设？给定两个向量x∈Rd

BERT-whitening:简单的向量白化改善句向量质量

04-07

BERT-whitening 通过简单的向量白化来改善句向量质量，可以媲美甚至超过BERT-flow的效果。介绍博客：论文：引用 @article{su2021whitening, title={Whitening Sentence Representations for Better Semantics and Faster Retrieval}, author={Su, Jianlin and Cao, Jiarun and Liu, Weijie and Ou, Yangyiwen}, journal={arXiv preprint arXiv:2103.15316}, year={2021} } 交流 QQ交流群：808623966，微信群请加机器人微信号spaces_ac_cn

BERT-whitening-pytorch:Pytorch版本的BERT白化

04-01

BERT增白这是“美化的Pytorch实施。 BERT增白在文本语义搜索中非常实用，其中增白操作不仅提高了无监督语义矢量匹配的性能，而且减小了矢量维，有利于减少内存使用量，提高矢量搜索引擎的检索效率，例如，FAISS。这种方法最早是由苏建林在他的博客中提出的。重现实验结果准备下载数据集： $ cd data/ $ ./download_datasets.sh $ cd ../ 下载型号： $ cd model/ $ ./download_models.sh $ cd ../ 下载数据集和模型文件后， data/和model/目录如下： ├── data │ ├── AllNLI.tsv │ ├── download_datasets.sh │ └── downstream │ ├── COCO │ ├── CR │

【调参Tricks】WhiteningBERT: An Easy Unsupervised Sentence Embedding Approach

lwgkzl的博客

05-21

578

总述该文主要介绍了三种使用BERT做Sentence Embedding的小Trick，分别为：应该使用所有token embedding的average作为句子表示，而非只使用[CLS]对应位置的表示。在BERT中应该使用多层的句向量叠加，而非只使用最后一层。在通过余弦相似度做句子相似度判定的时候，可以使用Whitening操作来统一sentence embedding的向量分布，从而可以获得更好的句子表示。模型文中介绍的前两点均不涉及到模型，只有第三点Whitening操作可以做简要介绍

【深度学习】Sentence Embedding-BERT-Whitening

Dong_ZH的博客

12-19

1621

flow模型本身很弱，BERT-flow里边使用的flow模型更弱，所以flow模型不大可能在BERT-flow中发挥至关重要的作用。反过来想，那就是也许我们可以找到更简单直接的方法达到BERT-flow的效果。BERT-whitening则认为，flow模型中涉及到的逆变换和雅可比行列式计算实际需要满足变换简单、易计算的特点。因此每一层的非线性变换能力就“很弱”，为了保证充分的拟合能力，模型就必须堆得非常深。但实际上BERT-flow所使用的模型计算量并大。

句向量表示-sentenceBERT，BERT-FLOW，BERT-whitening，TASDAE，simCSE，ConSERT, coSENT，PairSupCon，PromptBERT

weixin_36378508的博客

12-09

2288

一 BERT 句向量缺点论文1和论文2证明了 transformer 模型出来的向量表达（如 BERT、GPT2）会产生各向异性，具体表现是向量分布不均匀，低频词分布稀疏距离原点较远，高频词分布紧密，距离原点较近，如图所示。向量值受句子中词在所有训练语料里的词频影响，导致高频词编码的句向量距离更近，更集中在原点附近，导致即使一个高频词和一个低频词的语义是等价的，但词频的差异也会带来很大的距离偏差，从而词向量的距离就不能很好地代表语义相关性，和人判断句子的语义不受词频影响也不符合。 On t

进击！BERT句向量表征

qq_40676033的博客

11-06

1887

特征锦囊：使用嵌入法（Embedding）对高维特征进行降维

Pysamlam的博客

03-08

1339

今日锦囊特征锦囊：使用嵌入法（Embedding）对高维特征进行降维???? Index01 基于集成树的特征重要度筛选02 基于LR的L1正则化特征筛选Embedding方法是需要将待筛选的特征一并嵌入到模型中去构建，然后通过模型对特征的评价作为筛选依据，一般来说有集成树的重要度筛选（可以基于分裂次数多少、或者基尼增益、或者cover值等）、以及LR中L1正则化特征筛选。01 基于集成树的特征重要度筛...

【coding】Bert-Whitening细解

SUFEHeisenberg的博客

01-16

2973

BERT-Whitening细解 @author: Heisenberg @date: 2021-01-16 The code was share from Jianlin Su on his blog And This is a repo. Data can be download from here 原jupyter notebook 格式可在github上查看。测试任务：GLUE的STS-B句子相似性任务测试环境：tf2.2.0+ keras2.3.1+ bert4keras 0.9.8 对向量进

基于金融新闻数据的BERT模型微调和降维

最新发布

python12345_的博客

11-19

1226

Bert模型自2018年问世至今，在自然语言处理、多模态技术上显示出强大的实力，在金融领域中的文本理解、知识图谱等领域也显示出强大的应用前景。本文介绍如何在金融文本中微调自己的Bert模型，并进行精简，进而自动生成新闻因子，供下游预测任务使用。相关模型、数据集以及代码见文末分享。

百面机器学习（13）——生成式对抗网络

Briwisdom的博客

03-24

2713

目录初识GANs的秘密（MinMax游戏，值函数，JS距离，概率生成模型，优化饱和） WGAN：抓住低维的幽灵（Collapse Mode坍缩, Wasserstein距离，1-Lipschitz函数） DCGAN：当GANs遇上卷积 ALI：包揽推断业务 IRGAN：生成离散样本 SeqGAN：生成样本序列初识GANs的秘密（MinMax游戏，值函数，JS距离，概率生成模型，优...

关于BERT和embedding

weixin_45124463的博客

06-15

688

hidden = hidden.detach()让hidden忘掉了他是从哪里计算得来的，于是再使用hidden进行运算，hidden就会被当作新的独立变量，它的祖先也就得不到梯度更新了。答：通过向很长时间以前的时刻传递梯度）困惑度的物理意义：困惑度表示“概率的倒数”（正确标签对应的概率倒数），也可以解释为分叉度，即有几个分叉选择。梯度消失/爆炸的原因：2.反向传播每个时间RNN层中的梯度都乘以相同的权重矩阵，于是爆炸/消失。负采样：对负例样本进行采样：比如一个+，100个-，代替一个+，999999个-

详解谷歌最强NLP模型BERT（理论+实战）

周红伟讲AI

01-22

4742

详解谷歌最强NLP模型BERT（理论+实战）作者：李理，环信人工智能研发中心vp，十多年自然语言处理和人工智能研发经验。主持研发过多款智能硬件的问答和对话系统，负责环信中文语义分析开放平台和环信智能机器人的设计与研发。本文是作者正在编写的《深度学习理论与实战》的部分内容。导语 Google BERT 模型最近横扫了各大评测任务，在多项任务中取得了最好的...

使用Bert得到句向量简单总结

weixin_45570921的博客

04-08

5007

bert获得句向量 tensorflow版本查看 tensorflow2.1.0版本运行结果 tensorflow1.14.0版本安装 ...

LDA与PCA都是常用的降维方法，二者的区别

Gunther的博客

10-22

1万+

从主观的理解上，主成分分析到底是什么？它其实是对数据在高维空间下的一个投影转换，通过一定的投影规则将原来从一个角度看到的多个维度映射成较少的维度。到底什么是映射，下面的图就可以很好地解释这个问题——正常角度看是两个半椭圆形分布的数据集，但经过旋转（映射）之后是两条线性分布数据集。 LDA与PCA都是常用的降维方法，二者的区别在于：出发思想不同。PCA主要是从特征的

深度学习中 Embedding层两大作用的个人理解