
科研路
文章平均质量分 90
Moliay
纵有bug起,编程不言弃
展开
-
低资源场景下的知识抽取
相比之下,专有LLM通常拥有更强大的基础能力和更多的训练资源,在进行ICL时可能表现得更为出色。然而,在训练特定任务时,专有LLM的调整灵活性受限于其API和商业限制,导致它们在个性化任务的调优上存在瓶颈。和传统预训练语言模型相比,LLM拥有更强的预训练能力,可进行更复杂的即时学习。可利用LLM理解和处理上下文的固有能力来提升低资源IE,进一步从稀缺数据中获得有价值的见解,从而减少微调的要求。在资源匮乏的IE任务中,提示调优使模型适应具有最少数据的特定任务或域,其中提示充当指导。原创 2024-12-27 15:10:50 · 934 阅读 · 0 评论 -
【科普】小样本关系抽取技术的进展与挑战
小样本关系抽取是知识图谱构建核心任务之一,尤其在垂直领域有着广泛应用价值小样本关系抽取技术取得了长足进步,仍存在一些技术瓶颈有待改进小样本关系在大模型也是存在新问题,比如关系知识偏差,探测、编辑以及评价。原创 2024-12-15 23:10:33 · 1041 阅读 · 0 评论 -
Preserving Generalization of Language Models in Few-shot Continual Relation Extraction
数据的不同表示层上应用MIM将是L0学习表示的有力帮助。具体来说,具有相同标签的样本的互信息将得到增强,而不同标签的特征对应的信息将受到限制。结果,同一类的特征向量将变得更加浓缩,不同类的表示将更加分离。原创 2024-11-16 18:55:48 · 521 阅读 · 0 评论 -
Meta Learning(李宏毅老师系列)
Meta v.s. Domain adaptation:Meta中不同的task看做是不同的Domain,那么可以将Meta看做是Domain adaptation的一种方法。将该“学习算法”在所有的“学习任务”上的损失求和,得到total loss。“学习算法”也可以看做一个函数F,它的输入是训练数据,输出是model。最终我们真正关心的是,在“测试任务”上,学习算法。用在在测试任务的测试数据上,可以得到想要的结果。,利用某个任务的训练数据进行训练,得到模型。根据学习内容不同,将元学习的具体方法进行。原创 2024-08-16 22:04:33 · 1157 阅读 · 0 评论 -
Self-Supervised Learning(李宏毅老师系列)
自监督学习模型与芝麻街~参数量ELMO:94MBERT:340MT5:11BGPT-3:175B“自监督学习”数据本身没有标签,所以属于无监督学习;但是训练过程中实际上“有标签”,标签是“自己生成的”。想办法把训练数据分为“两部分”,一部分作为作为“输入数据、另一部分作为“标注”。原创 2024-08-16 18:14:45 · 720 阅读 · 0 评论 -
Generative Adversarial Network(李宏毅老师系列)
低维的 Manifold【是可以局部欧几里得空间化的一个拓扑空间,是欧几里得空间中的曲线、曲面等概念的推广】高维空间中随便 Sample 一个点都不是图片只有非常小的范围,Sample 出来会是图片。:Discriminator 跟 Generator,它们互动的过程是自动的。每一个图片都去配一个从 Gaussian Distribution Sample 出来的 Vector,Train 一个 Network,输入一个 Vector,输出就是它对应的图片,把对应的图片当做你训练的目标训练下去。原创 2024-08-15 13:35:56 · 791 阅读 · 0 评论 -
transformer(李宏毅老师系列)
decoder会把自己的输出作为接下来的输入之一,当decoder看到错误的输入,再被decoder自己吃进去,可能会造成error propagation,一步错步步错。但是,在训练时,是对每一个生成的token进行优化,使用的指标是交叉熵。但是,虽然表面上看起来有种种的厉害之处,尤其是平行化是它最大的优势,但是 NAT 的 Decoder ,它的 Performance,往往都。根据这个蓝色的向量里给每一个中文的字的分数,来决定第二个输出,再作为输入,继续输出后续的字,以此类推……原创 2024-08-12 21:35:10 · 1563 阅读 · 0 评论 -
self-attention(李宏毅老师系列)
recurrent neural network 的角色,很大一部分都可以用 Self-attention 来取代。⇒哪些部分是重要的(判断label,决定class,决定regression数值)用。每一个像素pixel就是一个三维的向量,整张图片,其实就是长乘以宽个向量的set。使用多个 q,k,v组合,不同的 q,k,v 负责不同种类的相关性。计算Attention的模组:拿两个向量作为输入,输出。再把 q 乘上另外两个矩阵,分别得到。同一个“头”里的k,q,v计算b.并Normalization。原创 2024-08-12 08:00:00 · 977 阅读 · 0 评论 -
卷积神经网络(李宏毅老师系列)
⇒neuron也许并不需要把整张图片当作输入,只需把图片的一小部分当作输入,就足以让它们侦测某些特别关键的pattern是否出现。守备的 Receptive Field 不一样,但是它们的参数一样(守备相同感受野的神经元,不希望参数一样,否则无意义)这一组神经元被称作filter,对不同感受野使用的filter参数相同。简化②:Parameter Sharing权值共享(不同感受野的神经元共享参数)思考②:同样的pattern可能出现在图片的不同位置。侦测同样pattern的神经元做的工作是类似的。原创 2024-08-10 21:28:06 · 1538 阅读 · 1 评论 -
类神经网络优化技巧(李宏毅老师系列)
基于并行运算的加成,实际上当batch size小的时候,跑完一个epoch花费时间要比batch size大的时候多;GPU平行运算的能力还是有其限度的,当batch size真的很大时,GPU在跑完一个batch计算出gradient所花费的时间,会随着batch size的增加而逐渐增长。故不同维度的输入值,大小的scale差距很大,就可能产生在不同方向上,斜率、坡度非常不同的error surface。data augmentation:根据对该问题的理解,从已有的数据中,创造出新的。原创 2024-08-10 15:33:09 · 950 阅读 · 0 评论 -
知识图谱研究综述笔记
SACN引入了加权GCN(图5b),它定义了具有相同关系类型的两个相邻节点的强度,利用节点结构、节点属性和关系类型来捕获知识图中的结构信息。由于缺乏标记的关系数据,远程监督,也称为弱监督或自监督,通过假设包含相同实体提及的句子可能在监督下表达相同的关系,使用启发式匹配来创建训练数据 关系数据库的。以实体预测为例,基于嵌入的排序方法首先根据现有的三元组学习嵌入向量,通过把尾部实体或头部实体替换为每个实体θ∈ε,这些方法计算所有候选实体的得分,并对前k个实体进行排名,但基于嵌入的方法很难捕捉到多步骤关系。原创 2024-07-13 14:15:53 · 1029 阅读 · 0 评论 -
科研入门笔记
在以上三个方向上都拿满分很难,有时候在两个方向上拿满分都是一件非常困难的事情,所以就需要考虑能不能在一个指标上拿满分;如果无法在任何一个指标上拿满分,就需要考虑是否能做到三个指标都能够均衡地达到10,这也是很不错的;如果能够在某两个指标上达到10,还是值得一写的,如果写的比较好的话,也是一个比较好的工作,否则的话,建议想一想在其他方向上是不是还有突破,至少在另外一个指标上拿到10。摘要就可以按照以下逻辑展开:为解决某一个研究问题,我的方法新意是哪些,取得了如何的效果。一篇论文可以考虑读1~3遍。原创 2024-07-10 21:06:51 · 805 阅读 · 0 评论 -
知识图谱入门笔记
知识图谱构建从最原始的数据(包括结构化、半结构化、非结构化数据)出发,采用一系列自动或半自动的技术手段,从原始数据库和第三方数据库中提取知识事实,并将其存入知识库的数据层和模式层,这一过程包含:信息抽取、知识表示、知识融合、知识推理四个过程,每一次更新迭代包含这四个阶段。图数据库是以图的方式来保存的,图数据库的优点在于查询和搜索的速度比较快 ,并且在图数据库中实体节点可以保留属性,这就意味着实体可以保留更多的信息,此外图数据库像其他的关系数据库一样有完整的查询语句,支持大多数的图挖掘算法。原创 2024-07-09 12:25:04 · 5893 阅读 · 0 评论 -
PyTorch入门笔记
Linear#flatten 摊平成一条。原创 2024-07-02 13:13:22 · 1422 阅读 · 0 评论 -
古文字识别笔记
对于样本数量超过阈值上限的数据,采取随机采样方法。对于样本数量不足的数据,“数据重构”原创 2024-06-23 13:44:39 · 311 阅读 · 0 评论