
NLP
文章平均质量分 91
NLP领域的个人探索与理解
馨歌
PsyQuant for analysis.
展开
-
DetectGPT VS ChatGPT:AI反击战?
简单高效的 DetectGPT 理解起来还是比较容易的,作者也打算将这一方法用于 LLM 生成的音频、视频和图像的检测工作中。当然它也有一些缺点:①模型改写的情况会影响曲率估计的质量;②相比于其他检测方法需要更多的计算量等,不过看效果还是比较靠谱。官方鉴别器虽不咋滴,但说明 OpenAI 目前在努力表现出踩刹车的样子,有消息称其正考虑在生成文本中加入隐藏的“水印”,或许从根源解决才是终极大法😄😄😄。xpxxp。原创 2023-02-15 11:09:07 · 5171 阅读 · 0 评论 -
正则表达式 python
语法说明表达式匹配结果\d数字:[0-9]a\dga8g\D非数字:[^\d]a\Dga哈g\s空白字符:[\t\r\n\f\v]a\sga g\S非空白字符:[^\S]a\Sgadg\w单词字符:[A-Za-z0-9_]a\wcafg\W非单词字符:[^\W]a\Wga g。原创 2021-01-19 16:23:30 · 225 阅读 · 0 评论 -
Bert词向量的空间分布
都有理论解释了,结论自然就是Bert词向量确实存在表征退化问题,词向量存在各向异性,高频词距离原点更近,低频词训练不充分,远离原点,整体分布呈现圆锥形,导致其不适用于语义相似度任务。不过不知道该理论解释有没有说服你😄😄😄。针对此类问题,可以采用一下方法对其进行纠正,如论文[1]中加入cos正则,论文[2]中将锥形分布转化为高斯分布,《对比学习——文本匹配》其实都是为了解决这个问题,因为词向量有问题,句向量自然跑不了。(定理3证明)原创 2023-01-16 17:20:44 · 379 阅读 · 0 评论 -
【ICLR 2023】RankCSE:基于排序学习的无监督句子表示学习
RankCSE 结构是看起来比之前的算法复杂,其实原理还是挺简单的,训练过程主要是优化排序序列,让其趋于一致,同时,从已训练好的教师模型再获取伪标签来辅助。从结果可以看出,这次卷的还是比较成功😄,对于文本检索等任务还是很有借鉴意义。原创 2023-01-09 14:26:17 · 1273 阅读 · 1 评论 -
【NLP】预训练语言模型一览
预训练语言模型(pre-train language model)相信大家都已经很熟悉了,本篇主要是对的原理及几种主要的预训练语言模型(PLMs)做简要的梳理。PLMs:先在一批语料上训练模型,然后在该模型基础上继续训练或另做他用。预训练阶段:一般会在超大规模语料上,利用无监督或弱监督的方式训练模型,该模型具备两个特点:①能够学习到足够多的语言知识;②参数规模很大。微调阶段:利用预训练好的模型,去定制化训练某些任务,往往会事半功倍。预训练语言模型的优点:①预训练模型的通用性;②更好的初始化参数;原创 2022-12-15 10:38:58 · 1074 阅读 · 0 评论 -
【ACL 2022】Text Smoothing:针对文本分类任务的数据增强方法
数据增强一直都是CV、NLP领域广泛应用的技术,尤其是在数据资源极少的情况下。简单来说,就是扩充训练集的规模来缓解过拟合的问题,提高深度神经网络的鲁棒性。在NLP领域,数据增强的方法通常有: 1)对文本进行增删改;2)回译(翻译到一种语言再翻译回来);3)通过 dropout;4)mixup 技术等。Text Smoothing(文本平滑)。论文:《》数据增强省时省力,如果能够模拟出接近真实样本的分布,确实不失为一种好方法。原创 2022-11-28 17:46:57 · 1757 阅读 · 0 评论 -
【ACL 2022】NoisyTune:来点噪声帮你更好地微调预训练语言模型
BERT自2018年横空出世以来,使得成为处理NLP任务的标配,如何有效的微调预训练语言模型(PLMs)对下游任务来说至关重要,然而,由于预训练机制,PLMs存在过拟合预训练数据和任务的风险,导致与下游任务之间存在Gap,在finetune的过程中,这种Gap可能无法消除并导致局部最优。鉴于此,今天介绍的这篇ACL 2022的论文则提出了一种简单且有效的解决方法NoisyTune,通过在微调PLMs参数之前添加一些噪声,帮助PLM减小过拟合预训练任务和数据的风险,以更好地微调下游任务。原创 2022-11-22 22:43:02 · 689 阅读 · 0 评论 -
【NLP】对比学习——文本匹配(二)
本篇主要拆析了SimCSE以来几种比较重要的文本增强式的对比学习算法,按时间顺序,理论上应该是距离越近的算法效果越好,但使用时,还是要结合具体的业务场景,算法没有好坏,还是用看怎么用。对于有些内容,可能叙述的不是很细致或是需要一定的知识铺垫,感兴趣的同学可以针对性的研读论文和辅助其他资料。当然,算法层出不穷,更新很快,后续出现比较重要的对比学习算法,我也会更新,也欢迎各位交流讨论。原创 2022-11-08 10:06:17 · 2146 阅读 · 1 评论 -
【NLP】对比学习——文本匹配(一)
NLP方向的对比学习算法,针对文本相似度匹配任务,包括BERT-Flow、BERT-Whitening、ConSERT原理详解。原创 2022-11-01 11:48:48 · 2498 阅读 · 0 评论 -
拉呱NLP:传统文本表示(一)
Word Embedding(词嵌入)计算机要理解人类语言,是需要翻译的,这个过程就是WordEmbedding。而计算机是理解数字类型的,所以转成数字就好了(至于计算机怎么处理数字,计算机原理的同学们可以跟上了),但转成什么样子的数字呢?这就是下面WE发展的历史了……1. 最简单的Word Embedding —— One Hot编码One Hot(独热)是基于词袋(BOW:装词的袋子)进行词表示的编码,其实就是袋子里有多少不重复的词,就给它们计数,一词一个id/index。当然还要把id转成向量的原创 2022-10-28 18:11:49 · 307 阅读 · 0 评论