
论文复现记录
文章平均质量分 58
YJII
这个作者很懒,什么都没留下…
展开
-
论文复现-3:ConSERT: A Contrastive Framework for Self-Supervised Sentence Representation Transfer
sentence_transformers存放的是python tool中的sentence_transformers的具体模块。data_utils:数据加载的过程,在中文数据加载中使用的是:load_chinese_tsv_data。transformers存放的是python tool中的transformer的具体模块。data 是process之后的数据集,用在model的train过程中。datasets是放置data的zip的文件夹。正在git中向作者请教。原创 2023-03-31 19:45:07 · 224 阅读 · 0 评论 -
论文复现-2:ConSERT: A Contrastive Framework for Self-Supervised Sentence Representation Transfer
数据集中是sentence pair形式存储的数据集,每行数据包括两个内容,一个是original sentence,一个是reference sentence。encoder是使用bert的encoder,使用的average pooling做的constractive loss计算。在之后的model.fit以及其他过程中,都是使用的sentence transformer中的文件。以上这些函数是从已经预定好的库中引入的,是从已经定义好的python tool中导入的。原创 2023-03-29 22:19:56 · 421 阅读 · 0 评论 -
论文复现-1:ConSERT: A Contrastive Framework for Self-Supervised Sentence Representation Transfer
作为了参与loss计算的semantic representation3、在constractive loss layer,是要保持similarity 的samples的距离尽可能的近,而dissimilar的samples的距离尽可能的远。原创 2023-03-29 11:24:57 · 406 阅读 · 0 评论 -
论文复现-3
linear的向量映射是从:768——>128维。数据集是CONLL03。原创 2023-03-03 21:40:28 · 784 阅读 · 0 评论 -
论文复现-1:bertscore
函数最大化的similarity score,每个token match到相似度最高的那一个token。论文中指明,使用了cosine函数计算sentence之间的similarity score。greedy search操作,参考原文中的公式:注意底标是两个不同的维度。是根据model-name调用相应的Model和Tokenizer函数。normalize操作:A.div_(B)是A 中每个值除以B的值。函数,将embedding做了normalize后,使用的是。正常的cosine sim=原创 2022-12-18 18:58:48 · 1307 阅读 · 0 评论 -
论文复现-2代码研读:Black-Box Tuning for Language-Model-as-a-Service
模型效果可以越来越好,是cma evalaution在起作用??整个valid过程中,当新的valid score的评测分值超过上一次的valid score时,模型才会保留prompt。整个建模中,API并不是以http形式出现,是以大模型参数形式出现的。模型代码中主要用到了fastnlp库。原创 2022-12-14 20:57:07 · 776 阅读 · 0 评论 -
论文复现-1论文重读:Black-Box Tuning for Language-Model-as-a-Service
给出X和Y,经过一些engineering后,比如verbalizer engineering...,形成X^和Y^,然后通过API f,在连续prompt的条件下,实现Y^的预测,具体可以表示为:Y^=f(p;X^)Y^表示待预测的变量;p表示连续prompts;X^表示输入。p的维度是D。可是,作者提到了“our goal is to find the optimal prompt P*=argmin L (Y^,Y~)”,最终目标是要找到最优的prompt吗?原创 2022-12-14 11:30:26 · 954 阅读 · 1 评论 -
小样本·信息抽取 关系分类 复现-3 常用代码集-attention mask& ids
有些场景下,我们得到的mask的长度或者input_ids的长度并不是一样的。有的时候,ids的长度和句子的长度一致,但是不同句子的长度是不一致的。在使用PLM encoder时,需要统一到相同的长度在做考虑。原创 2022-11-11 19:32:11 · 356 阅读 · 0 评论 -
小样本·信息抽取 关系分类 复现-3 常用代码集-chunk
【代码】小样本·信息抽取 关系分类 复现-3 常用代码集-chunk。原创 2022-11-11 19:25:13 · 450 阅读 · 0 评论 -
小样本相关论文复现—2-全局印象
它引入了新的特殊标记hS:TYPEi、h/S:TYPE、hO:TYPEi、h/O:TYPEi,其中TYPE是命名实体标记器给出的相应NER类型。我们提出了一种类型化实体标记技术的变体,它标记实体跨度和实体类型,而不引入新的特殊标记。该技术引入了特殊的标记对[E1]、[/E1]和[E2]、[/E2]来包围主体和对象实体,因此将输入文本修改为“[E1]SUBJ[/E1]…这种技术引入了新的特殊标记[SUBJ-TYPE]或[OBJ-TYPE]来掩盖原文中的主体或客体实体,其中TYPE被替换为各自的实体类型。原创 2022-11-09 14:33:32 · 721 阅读 · 0 评论 -
论文复现—1—A Simple yet Effective Relation Information Guided Approach for Few-Shot Relation Extraction
论文阅读笔记在笔记本上,整体流程在笔记本上做推导,不在电子版存稿了。较为简单。原创 2022-11-08 21:27:51 · 543 阅读 · 3 评论 -
预训练语言模型复现-2 whole word mask
看文章标题,mask可以定位到mask language model,代表模型是bert一系列的成果。mask可以分为token mask和whole Word mask,怎么实现?两者的区别是什么?整个实现过程可以借鉴transformer的源码。原创 2022-11-06 08:44:58 · 498 阅读 · 1 评论 -
预训练语言模型复现CPT-1&Restructure_pretrain
model parallel 可以是model的不同layer分在不同的GPU上,也可以是model的的Tensor calculation 分在不同的GPU上。是基于megetron_LM (github中有官方介绍),代码中的pretrain文件下的部分。data format: json (not text) _数据工具:Datalab.——加载数据。公开的模型,适用于处理的任务类型存在一些差异,根据能够处理的任务类型公开的模型结构。megatron-lm是一个包,PLM训练的工具包。原创 2022-11-05 19:52:41 · 638 阅读 · 0 评论 -
组块(chunking)-nltk&spacy
组块分析(Chunking)组块分析是从非结构化文本中提取短语的过程。相对于POS-Tagging来说,POS-Tagging返回了解析树的最底层,就是一个个单词。但是有时候你需要的是几个单词构成的名词短语,而非个个单词,在这种情况下,您可以使用chunker获取您需要的信息,而不是浪费时间为句子生成完整的解析树。举个例子(中文):与其要单个字,不如要一个词,例如,将“南非”之类的短语作为一个单独的词,而不是分别拆成“南”和“非”去理解。原创 2022-10-13 22:59:16 · 851 阅读 · 2 评论 -
论文复现_2:Chinese NER Using Lattice LSTM
返回的是 #train_text返回的是words, biwords, chars, gazs, labels,train_ids返回的是word_Ids, biword_Ids, char_Ids, gaz_Ids, label_Ids。默认的embedding_dim是Word和char的embedding,lstm_input = self.embedding_dim + self.char_hidden_dim。在之后,是将每句话的Word、char和词典使用对应的ID存储。原创 2022-10-12 20:38:18 · 1025 阅读 · 0 评论 -
论文复现_1:Chinese NER Using Lattice LSTM
除了bi-grams之外的信息,还添加了word-segmentation的信息,而单词分区的信息查找是通过look-up table查询的。的时候,是将char和bi-gram做的拼接,而bi-grams的信息是在look-uplabel中找到的。我们通过使用晶格结构的LSTM来表示句子中的词汇,从而将潜在的词汇信息整合到基于特征的LSTM-CRF中。在计算的时候,是在bi-lstm的cell信息计算时,将cell信息做了丰富。在cell的信息计算时,考虑cell的上一个时序信息和当前cell的信息。原创 2022-10-12 18:31:13 · 734 阅读 · 0 评论 -
BM25算法——(他人写)
【代码】BM25算法——(他人写)原创 2022-10-06 21:42:27 · 223 阅读 · 0 评论 -
信息检索——BM25算法实现(自己写)
代码套公式的时候,qi默认的是查询项。但是,在网上的一些代码中,计算结果有点不太一样呀。原创 2022-10-06 21:39:42 · 463 阅读 · 0 评论 -
句子填充到指定长度(mask矩阵生成)
【代码】句子填充到指定长度。原创 2022-09-22 20:32:27 · 298 阅读 · 0 评论 -
复现:Named Entity Recognition with Small Strongly Labeled and Large Weakly Labeled Data
Labeled data—初始化NER model—>dev.txt(不太清楚做的工作)--weak.txt—refine过程àtraining with noise aware lossàfine tune。在只有少量手工标注数据和大量无标注数据的前提下,使用无标注数据会有损模型性能,为了解决这个问题,文章提出了如下的三段论模型。使用掩码语言模型在领域内的无标注数据上做预训练,初始化参数为PLM的参数。应该还原到目的,还是为了做好最初的任务。数据->模型->训练。适应新领域的语言特征。原创 2022-09-12 09:37:38 · 203 阅读 · 0 评论 -
二元组关系识别
{"text": "4 搭载任务分工\n4.1 载人航天工程办公室\n载人航天工程办公室任务分工如下:\na)管理和组织载人飞船搭载任务;\ne)与搭载方协调搭载物品试验项目并明确试验规范,组织搭载物品整船研制阶段的试验或测试;\n4.3 搭载方\n搭载方任务分工如下: \nCMS 1-2015\na)提交搭载申请;\n4.4 其他相关系统\n与搭载物品有接口关系的其他相关系统任务分工如下:\na)核准搭载方提出的搭载物品与其接口需求的技术条件;\nc)核准搭载方搭载物品产品与双方接口约定的符合性;原创 2022-09-08 15:09:17 · 148 阅读 · 0 评论 -
命名实体识别(综述)——NER
参考综述文章:A Survey on Deep Learning for Named Entity Recognition原创 2022-08-16 22:31:40 · 256 阅读 · 1 评论 -
统一范式NER复现-2
这里实际代码和论文的编码方式有点出入,有出入的地方在于,在实际代码中,label实际上占据的是[2, n_label+2]的范围,pointer是(n_label+2, n_token + n_label+2]。在最终计算概率时,是将sent部分和entity tag部分,分开的的,将两部分做的concatenation,得到的向量大小为[n+l]*d,做softmax,得到最终的概率。但是,还是觉得,这篇文章的价值是可以的,因为,可能要用到,觉得还是要做好复现。论文代码和论文中的描述,有矛盾部分。...原创 2022-08-16 15:05:59 · 309 阅读 · 0 评论 -
关键词抽取
常用技术:TF-IDF、TextRank整体上,关系词抽取方法,大致可以分为3类,基于统计的方法、基于图的方法、基于主题的方法、基于深度学习的方法,为了提高应用的准确率,一般是多种方法结合使用,比如,使用TF-IDF修正权重。参考文献:自动关键词抽取研究综述本机地址:E:\python project\pythonProject_draftKG\关键词抽取。...原创 2022-08-13 15:58:48 · 426 阅读 · 0 评论 -
主题聚类模型
因为需要对文件的主题,做聚类分析,得到本体或者文件所属类别,尝试了现有的两种非常常用的聚类手段,K-means均值聚类和LDA主题聚类模型(主题-词语,文件-主题分布)可参考资料:()原创 2022-08-13 12:04:16 · 1511 阅读 · 3 评论 -
命名实体识别现成code
git原创 2022-07-06 08:15:58 · 179 阅读 · 0 评论 -
Neo4j下载和安装
jk和neo4j版本匹配:https://blog.youkuaiyun.com/Zoooozz/article/details/108292034neo4j桌面版下载:https://blog.youkuaiyun.com/qq_53564294/article/details/120746308neo4j桌面版卸载:https://blog.youkuaiyun.com/qq_34045989/article/details/115458261数据库引入,默认打开的文件夹。使用说明:https://neo4j.com/dev原创 2022-07-03 22:28:56 · 2332 阅读 · 0 评论 -
list(map(tokenizer.tokenize, text))
class Preprocessor(object):def init(self, tokenizer):super(Preprocessor, self).init()self.tokenizer = tokenizerself.add_special_tokens = True原创 2022-06-25 15:38:00 · 326 阅读 · 0 评论 -
Tkinter初识
无原创 2022-06-17 09:19:17 · 380 阅读 · 0 评论 -
提示学习(OpenPrompt demo)
无原创 2022-06-10 20:03:43 · 780 阅读 · 2 评论 -
Global2Global的联合抽取
算是对之前的想法的一个交代Global1是指Global matrix;Global2是指关系抽取中的用到了实体识别的Global pointer模型(苏剑林博客提到的一种方法)模型其中,global correspondence指示:两个span的头部是否存在匹配关系;rel_1,…rel_n,表示每个关系的实体损失函数global_1采用BCE损失函数global_2采用多分类交叉熵损失函数优化器Adam (lr=1e-4)实验结果在webNLG数据集,全匹配情况下:考虑sp原创 2022-05-21 18:51:28 · 239 阅读 · 2 评论 -
模型中的关键(小tricks)
在模型中,除了问题的表示方法要尽可能与最终目标挂钩外,其次,loss函数与一些其他的小的操作技巧也是十分重要的比如:最近看到的focal loss,这是一个焦点损失函数,目标就是为了解决正类多而负类少的问题,(最直接的想法,就是在BCE loss中加权重,对于正类的损失权重大一些,负例则小一些),但是,不同的类别,数量多少也是不一致的(这里在NLP中是否可以理解为长尾分布,就是不同类别下出现的概率是不同的),因此,在损失函数中考虑了不同类别下的出现概率,形成了最终的焦点损失函数。上边的公式展开的话:原创 2022-05-13 10:04:59 · 209 阅读 · 0 评论 -
位置编码——苏剑林博客
因为,要加入位置编码信息,所以,学习位置编码!!!加油另外,Global的关系(PRGC)和Global pointer的NER,在统一上的使用,继续思考,就是之前的GG的想法!!!位置编码分为相对位置编码和绝对位置编码......原创 2022-04-12 08:14:05 · 1568 阅读 · 0 评论 -
CNN的使用
CNN1d的使用(bert+CNN)原创 2022-04-09 08:39:58 · 524 阅读 · 0 评论