- 博客(166)
- 资源 (1)
- 收藏
- 关注
原创 Rethinking Data Selection at Scale: Random Selection is Almost All You Need
在这项研究中,我们观察到许多自监督微调(SFT)数据选择方法依赖于小规模数据集,这些数据集并不满足实际场景的需求。这一发现使我们重新思考,在需要处理大规模IT数据集时,SFT数据选择方法是否仍然有效。我们在两百万规模的数据集上重现了一些现有的自评分数据选择方法,这些方法不需要外部大语言模型(LLM)的支持,结果发现几乎所有现有方法在处理大规模数据集时都没有显著超过随机选择。此外,我们的分析显示,在SFT阶段,数据选择中的数据多样性比数据质量更为重要。
2024-11-24 21:10:59
796
1
原创 Retrieval Augmented Generation or Long-Context LLMs? A Comprehensive Study and Hybrid Approach
背景:根据长文本内容回答问题:输入:长文本100k策略:直接作为大模型的输入RAG:长文本进行分片,然后quey选择相关内容,作为大模型的输入检索增强RAG现在已经成为LLM的外挂,基于query检索相关知识。然而,像Gemini和GPT-4这样的最近发布的LLM已经展现出了直接理解长文本的非凡能力,相关内容直接作为数据,效果更好,但是花费更高。RAG相对而言更省钱。本文主要探索长文本和RAG结合的方式:Self-Route:本文提出的策略。
2024-11-24 17:38:37
995
原创 LLM padding left or right
感觉pading left or right, 其实无所谓,主要就是为了方便。根据实际情况的具体需求,进行使用,用的正确,方便即可。
2024-04-19 20:31:51
3134
3
原创 大模型中top-p&top-k&temperature如何共同使用——Gemma为例子
之前系统学习了大模型的解码方式,Top-p, Top-k, Beam-search, Greedy, temperature等等,具体使用的时候,也清楚采用这些方式混合使用,但是具体怎么混合,有些模糊。看了一篇相关文章大模型文本生成——解码策略(Top-k & Top-p & Temperature),如下图所示,解决了我一些理解方面的问题,但是感觉还有有些模糊,仔细研究了一下Gemma,记录一下。
2024-04-17 12:02:06
937
1
原创 CodeGemma: Open Code Models Based on Gemma
CodeGemma基于谷歌开源的文本大模型Gemma,结构上跟LLama差不太多。
2024-04-14 17:03:58
680
原创 Qwen1.5-MoE: Matching 7B Model Performance with 1/3 Activated Parameters
大模型太卷了,总感觉天天出新的模型。今天看公众的号,看到阿里Qwen发布一款总模型7B,推理时,激活参数2.7B的大模型。仔细看了一下他的技术报告,记录一下。
2024-03-29 20:13:54
1077
原创 DBRX: A New State-of-the-Art Open LLM——基于专家LLM
一个由Databricks创建的开放的通用LLM。在一系列标准基准测试中,DBRX为已建立的开放LLM设定了新的最先进水平。此外,它为开放社区和企业构建自己的LLM提供了以前仅限于封闭模型API的功能;根据我们的测量,它超过了GPT-3.5,并与Gemini 1.0 Pro具有竞争力。它是一个特别有能力的代码模型,在编程方面超过了CodeLLaMA-70B等专门模型,此外它作为通用LLM的实力。这种最先进的质量在训练和推理性能方面有显著的改进。
2024-03-28 20:51:21
1351
原创 Query2doc——Query改写
本文介绍了一种简单但有效的查询扩展方法,称为 query2doc,旨在提升稀疏(如BM25)和密集检索(如E5,bge-m3等 )系统的性能。该方法首先通过少量样本提示大型语言模型(LLMs)生成伪文档,然后使用生成的伪文档来扩展查询。LLMs 是训练于网络规模的文本语料库,并擅长于知识记忆。来自 LLMs 的伪文档通常包含高度相关的信息,有助于查询消歧并引导检索器。
2024-03-26 21:54:52
1954
1
原创 如何修改大模型的位置编码 --以LLama为例
最近在看RoPE相关内容,一些方法通过简单修改位置编码就可以无需训练支持更长的文本内容。由于一些模型,已经训练好了,但是怎么修改已经训练好的模型位置编码。查了以下相关代码,记录一下。原理这里就不细讲了,贴几个相关博客。
2024-03-24 15:37:51
1594
1
原创 Mixtral MOE代码理解
我在看MOE的时候,虽然大概能够理解MOE的模型结构,但是看一些作者实现的代码(应该不是官方代码),虽然写的很好,但是始终理解无法彻底理解他代码的意思,于是,简单运行了一下,特此记录一下。
2024-03-17 01:30:47
1377
2
原创 P-Tunning V2简单理解
之前看过P-tunning V2, 知道他得思想,最近突然想到了这件事,仔细看了一下他得代码实现,重新看了一遍,记录一下。图片源于:https://zhuanlan.zhihu.com/p/423902902P-Tunning V2的思路,仅仅通过微调连续的一些虚拟Token进行训练,固定模型的其它参数,从而实现低成本微调。
2024-03-14 23:29:18
952
原创 KoPA: Making Large Language Models Perform Better in Knowledge Graph Completion
本来这个论文用来组会讲的,但是冲突了,没怎么讲,记录一下供以后学习。
2023-12-21 14:06:58
2088
4
原创 CP-KGC: Constrained-Prompt Knowledge Graph Completion with Large Language Models
知识图谱补全(Knowledge graph completion, KGC)的目的是利用已有的知识来预测知识图谱中的缺失链接(即确实的实体和关系)。基于文本的方法,如SimKGC,已经优于图嵌入方法(即结构嵌入,只利用三元租的信息),展示了归纳KGC的前景。补充一下,其实只是再WN18RR数据集上比较好,在FB5k-上就比较拉。然而,基于文本的方法的有效性取决于实体文本描述的质量。在本文中,我们确定了大型语言模型(LLM)是否能够生成有效的文本的关键问题。
2023-12-19 21:52:47
1474
原创 SimKGC: Simple Contrastive Knowledge Graph Completion with Pre-trained Language Models
目前,比较流行的知识图谱补全模型,通常喜欢使用结构化的信息即(h,r,t)的这种形式进行知识图谱补全。但是这种方式其实可以使用的特征有限,增加额外信息-实体描述(或者叫文本信息,我习惯性交实体描述,差不多一个意思,不要纠结),可以提高模型的表达或者特征。目前在WN18RR数据集上评分最高的模型,就基于实体描述信息,为什么只提WN18RR,因为在FB15k-237上,效果不咋地,后面细说。
2023-12-15 18:30:15
1625
原创 MoDS: Model-oriented Data Selection for Instruction Tuning
一些论文证明Instruction tuning证明只需要很少的数据集就可以实现与人类意图对齐,并且大模型LLM并不能从Instruction tuning中学到东西,仅仅是生成一些可靠的格式。该论文提出通过模型,自动化选取一些少量并且高质量的数据。论文中认为从三个方面,Instruction tuning数据质量、多样性,以及必要性三个方面进行Instruction tuning数据的选取。对于数据质量:质量要求所选的指令数据对问题和答案都足够好。对于数据多样性:覆盖范围要求所选指令数据足够多样化。
2023-12-15 15:32:12
1317
原创 令人又爱又恨的torch.argsort用法
每次使用argsort用法,让人又爱又狠,一段时间不用,就忘了其如何使用,导致花费大量的实践进行理解,刚开始学习这个函数时认为这个函数输出每个数的排名,例如[4, 7, 9, 8]->[0, 1, 3, 2], 从小到大进行排名,但是实际上并不是这个作用,而实将数据进行排名,排名的数字是原始数据的id。所有其显示内容与我们预期结果不符。
2022-09-17 16:31:38
1482
1
原创 Leetcode:剑指 Offer 59 - I. 滑动窗口的最大值
给定一个数组 nums 和滑动窗口的大小 k,请找出所有滑动窗口里的最大值。采取优先队列,队首为大的元素,有限队列中存入两个数据,数值和位置,首先把前k个数据放入,在窗口进行滑动时,加入新的元素,查看队首最大的元素是不是当前窗口,不是则弹出,知道是当前窗口为止。...
2022-06-03 14:55:14
1347
原创 Leetcode:829. 连续整数求和
给定一个正整数 n,返回 连续正整数满足所有数字之和为 n 的组数 。连续就想到了等差为1的等差数列,所以有公式ma1+(m−1)m/2=m(ma1+(m−1)/2)=nma_1+(m-1)m/2=m(ma_1+(m-1)/2) = nma1+(m−1)m/2=m(ma1+(m−1)/2)=n,可以看出m必须是n的银子,并且m-1为偶数才可以,才能确保a1a_1a1为整数。...
2022-06-03 13:24:19
335
原创 TEC: Knowledge Graph Embedding with Triple Context
TEC:Knowledge Graph Embedding with Triple Context1 问题 知识图谱没有充分利用上,丰富的信息,利用其周围信息和路径信息,基于以上信息进行知识知识图谱补全。2 模型context 信息包括:neighbor context和path context。2.1 Context详细信息Neighbor Context对于其Neighbor Context只进行出度的计算,CN(h)=(r4,e1),(r3,e2),(r2,e3),(r1,e8)
2022-05-31 14:07:10
335
原创 RSN:Learning to Exploit Long-term Relational Dependencies in Knowledge Graphs
Learning to Exploit Long-term Relational Dependencies in Knowledge Graphs1 问题目前只是图谱补全的内容是主要是基于triple-level,所谓的triple-level指得是只关注三元组的信息,仅仅只利用三元组的信息,而不增加任何信息,这么就会产生的一个问题,难以抓取关系的长期依赖关系,所有triple-level不能够传递丰富的信息,提出了基于只是图谱补全或者实体对齐。该模型选择lstm模型,进行扩展,实现长期的依赖,但是为了
2022-05-27 17:58:29
493
原创 TransA: An Adaptive Approach for Knowledge Graph Embedding
题目:TransA: An Adaptive Approach for Knowledge Graph Embedding1 问题本论文主要关注的问题是,距离的计算方式,一个自适应的权重矩阵。基于TransE的模型其评分函数采用欧几里得距离,不同维度的距离重要程度一样,就导致一些不太起作用的维度由于其距离比较大,导致产生的距离比较大,产生错误的评分,影响预测的结果。因此提出TransA模型,距离计算不再采用欧式距离,而实采用马式距离,不同维度根据其权重进行体现维度的重要性,将数据的维度进行压缩。下图即可
2022-05-20 15:31:49
732
原创 TransC:Differentiating Concepts and Instances for Knowledge Graph Embedding
TransC:Differentiating Concepts and Instances for Knowledge Graph Embedding1 介绍1.1 问题作者发现在实现时,对于concept(抽象的概念,如老师 (zhangsan, instance, teacher))和instance(具体的概念,如人物(zhangsan,friendof, lisi), zhangsan 和lisi都是具体的实例)目前现有的模型都没有对其进行区分,为了简化操作通常的处理方式是将二者作为实体不加以
2022-05-12 13:14:10
686
2
原创 TransEdge: Translating Relation-contextualized Embeddings for Knowledge Graphs
TransEdge: Translating Relation-contextualizedEmbeddings for Knowledge Graphs1 原因目前模型对于关系的处理存在问题,如线性模型,或者双线性模型无法抓住多样的关系结构。在TransE模型,例如(泰囧,演员,黄渤),(泰囧,饰演,徐峥),当进行h+r≈th+r \thickapprox th+r≈t导致结果黄渤和续重非常接近,不利于预测结果,因此提出以边为中心的理念,根据上下文表示关系,使边具有多样性。本质上就是,实体和关系本身的
2022-05-11 11:13:39
553
4
原创 Leetcode:442. 数组中重复的数据
题目:442. 数组中重复的数据题意:给你一个长度为 n 的整数数组 nums ,其中 nums 的所有整数都在范围 [1, n] 内,且每个整数出现 一次 或 两次 。请你找出所有出现 两次 的整数,并以数组形式返回。你必须设计并实现一个时间复杂度为 O(n) 且仅使用常量额外空间的算法解决此问题。代码:因为数据范围在[1-n],所以通过对数据进行取相反数进行标记class Solution {public: vector<int> findDuplicates(vect
2022-05-08 16:13:06
413
原创 TransGate: Knowledge Graph Embedding with Shared Gate Structure
题目:TransGate: Knowledge Graph Embedding with Shared Gate Structure1 问题目前的模型,当前的模型通过专注于从越来越复杂的特征工程中区分特定于关系的信息来改进嵌入,导致这些模型消耗大量的时间和空间,不能有效应用于现实世界大量的数据。论文中作者采用参数共享,能够学习更多的特征,减少参数避免模型更加复杂。基于Gate模式提出TransGate,利用部分Gate的思想构建模型,并对提出的模型进行重构减少参数,虽然效果比没有简化版的TransGat
2022-05-08 12:52:48
660
3
原创 leetcode:单词长度的最大乘积
题目:单词长度的最大乘积来源:力扣(LeetCode)题意: 给定一个字符串数组 words,请计算当两个字符串 words[i] 和 words[j] 不包含相同字符时,它们长度的乘积的最大值。假设字符串中只包含英语的小写字母。如果没有不包含相同字符的一对字符串,返回 0。分析: 因为需要挨个单词比较,所以很容易想到O(n2)O(n^2)O(n2)的算法,采用层for循环,但是存在一个问题,如何高效的判断两个单词是否有重复的字母,最容易想到就是开vis[单词数量][26]的数组,时间复杂
2022-04-30 11:22:48
170
原创 ConEx:Convolutional Complex Knowledge Graph Embeddings+代码
Convolutional Complex Knowledge Graph Embeddings1 介绍1.1 思想该论文的核心就是结合ComplEx和维度卷积的形式,进行知识图谱补全。1.2 知识图谱中存在的关系symmetric(对称)if (h,r,t)⇐⇒(t,r,h)(h, r, t) ⇐⇒ (t, r, h)(h,r,t)⇐⇒(t,r,h) for all pairs of entities h,t∈Eh, t \in \mathbf {E}h,t∈Eanti-symmetri
2022-04-28 21:23:03
581
原创 InteractE: Improving Convolution-Based Knowledge Graph Embeddings by Increasing Feature Interactions
其它关于卷积知识图谱补全:ConvR:Adaptive Convolution for Multi-Relational LearningConvE:Convolutional 2D Knowledge Graph EmbeddingsConvKB代码:A Novel Embedding Model for Knowledge Base Completion Based on Convolutional Neural Network1 介绍1.1 引言本篇论文是对于论文ConvE的模型进行改进,
2022-03-30 11:45:42
4191
原创 ConvR:Adaptive Convolution for Multi-Relational Learning
关于卷积的知识图谱补全:ConvE:Convolutional 2D Knowledge Graph EmbeddingsConvKB代码:A Novel Embedding Model for Knowledge Base Completion Based on Convolutional Neural NetworkConvR论文:点击1 介绍本论文的思想是在ConvE论文的基础上进行改进,进行知识图谱补全。ConvE成功实现实体和关系之间的交互,但是实体和关系之间的交互非常少,仅仅只有百分
2022-03-27 16:29:09
3350
原创 ConvE:Convolutional 2D Knowledge Graph Embeddings
论文:Convolutional 2D Knowledge Graph Embeddings1 介绍1.1 提出原因之前提出的模型如disMult,Trans系列模型,成为浅层模型,虽然比较简单,参数较少、训练模型速度较快,但是这些模型相比于深的模型,更少能够抓到复杂的信息。因此,提出模型ConvE模型,利用卷积的方式进行知识图谱补全,能够适用于更加复杂的图。在浅层模型中增加特征数量的唯一方法,就是增加embedding的维度,但是随之而来存在一个问题,不能扩展到更大的知识图谱,因为嵌入参数的
2022-03-25 21:47:06
6483
3
原创 distMult: EMBEDDING ENTITIES AND RELATIONS FOR LEARNING AND INFERENCE IN KNOWLEDGE BASE
本篇论文是经典的双线性模型,通过乘法的方式进行知识图谱补全。查看原文1 简介该方法采用双线性模型,通过学习关系嵌入来挖掘逻辑规则,如BornInCity(a,b)∧CityOfCountry(b,c)⇒Nationality(a,c)BornInCity(a, b)\wedge CityOfCountry(b, c)\Rightarrow Nationality(a, c)BornInCity(a,b)∧CityOfCountry(b,c)⇒Nationality(a,c)。2 模型2.1 E
2022-03-15 20:25:16
1146
原创 pytorch 常用函数总结
在进行使用pytorch进行数据处理的使用,对于其中涉及的函数不是特别了解,导致在使用的时候,需要不断的翻阅资料,去查找某个方法如何使用,对于其产生的结果不是十分了解。以下对于pytorch中我遇到的常用函数进行归纳总结,并不进行完善,以供学习。1 常用的几种参数总结1.1 dim参数dim 这一参数通常指的是维度,其维度设置如下图所示:图片源于【PyTorch】PyTorch 中的 dim其中参考实例如下:import torcha = torch.Tensor([[[1, 2, 3
2022-03-11 19:25:01
7178
1
原创 ConvKB代码:A Novel Embedding Model for Knowledge Base Completion Based on Convolutional Neural Network
1 介绍本篇论文以卷积的方式对知识图谱进行补全,在实现时进行预测三原组是正确的还是错误的,该方法在论文ConvK的基础上进行改进,其在逻辑实现的过程中十分简单,通过相应的模型图即可知道其原理。2 模型2.1 模型图2.2 模型解释将三元组进行embedding,将(h,r,t)(h, r, t)(h,r,t)三元组转化为(vh,vr,vt)\left(\boldsymbol{v}_{h}, \boldsymbol{v}_{r}, \boldsymbol{v}_{t}\right)(vh,vr
2022-03-10 20:26:53
3187
15
原创 A Neighborhood-Attention Fine-grained Entity Typing for Knowledge Graph Completion:AttEt
论文地址1 目的该论文主要用于知识图谱补全的一个子任务,实体类型推测。提出一个方法为AttEt,AttEt通过聚集具有类型特定权重的给定实体的邻域知识,在实现时采用entity-level和neighborhood-level,对于entity-level采用基础的TransE进行训练,而对于neighborhood-level采用注意力机制,对于不同的neighbor赋予不同的权值。2 模型2.1 模型结构图fij={+1,(ei,rij,eij) is hold&nbs
2022-03-07 15:30:57
1032
2
原创 SimplE:SimplE Embedding for Link Prediction in Knowledge Graphs+代码
文章目录1 介绍1.1 知识图谱1.2 知识图谱补全方法1.3知识图谱补全(Knowledge Graph Completion,KGC)1.4 关系分类2 模型2.1 双线性模型2.2 核心公式2.3 负采样2.4 损失函数2.5 评价MRRMRHITS@n3 [代码](https://github.com/baharefatemi/SimplE)3.1 数据处理模块 dataset.py3.2 模型模块 model.py3.3 训练模块 Trainer.py3.4 测试模块 Test.py3.5 评价
2022-03-06 21:02:27
1883
原创 art-template渲染界面时,渲染内容中有标签无法编译
art-template渲染界面时,渲染内容中有标签无法编译本文中主要提醒大家,在使用模板引擎时,遇到的一个小麻烦,虽然比较小,但是太恶心人了,你还没有办法,特此记录一下。在使用时我在渲染界面时,数据中存在img标签,但是并没有编译img标签而实当作一个...
2021-04-15 20:04:54
268
原创 codeforces div2 Row GCD
题目:Row GCD题意:给定一个数组a1…an,在给定一个数组b1…bm,求出所有GCD(a1+bj,…, an+bj)思路:参考博客点击辗转相除不仅适用于两个数 gcd(x, y) = gcd(x, y - x),它适用于多个数 gcd(a1+bj,a2+bj,…,an+bj)=gcd(a1+bj,a2+bj,…,an+bj−an−1−bj)最后 gcd(a1+bj,a2+bj,…,an+bj)=gcd(a1+bj,a2−a1,…,an−an−1)先预处理 gcd(a2−a1,…,an−a
2021-02-23 11:35:59
183
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人