- 博客(66)
- 收藏
- 关注
原创 大语言模型-GLM-General Language Model Pretraining
GLM是2020-2021年由智谱AI研究并发布的预训练语言模型。GLM是一种基于`自回归空白填充`的通用预训练语言模型。GLM 通过添加`二维位置编码`和`允许任意顺序预测空白区域`,改进了`空白填充预训练`,在NLU任务上超越了 BERT 和 T5。GLM的网络架构使用的是多层Transformer Decoder改的结构。
2024-08-28 11:11:55
892
原创 大语言模型-GPT3-Language Models are Few-Shot Learners
## 一、背景信息:GPT3是于2020 年由OpenAI 发布的预训练语言模型。GPT3在自然语言处理(NLP)任务中表现出色,可以生成连贯的文本、回答问题、进行对话等。GPT3的网络架构继续沿用GPT1、GPT2的是多层Transformer Decoder改的结构。GPT3出自Language Models are Few-Shot Learners,语言模型是Few-Shot学习者。
2024-08-27 14:40:33
1236
原创 大语言模型-PDF文档解析
PDF解析能够提升大语言模型系统的信息处理能力和应用范围,为用户提供更加便捷、高效、个性化的服务体验。本文介绍三种常用的pdf解析方式:`Open Parse`、`pdfplumber`、`PyMuPD`。
2024-08-22 17:20:33
2217
原创 大语言模型-LLaMA-Large Language Model Meta AI
LLaMA(Large Language Model Meta AI)模型是于2020 年由发布的一个大型基础语言模型。LLaMA使用的数据集来源都是公开数据集,无任何定制数据集。LLaMA性能的亮点充分地证明了高质量数据的重要性,而不是一股脑地叠加网络深度以及参数量。
2024-07-29 11:21:03
762
原创 大语言模型-GPT2-Generative Pre-Training2
GPT2是2019年由OpenAI 提出的预训练语言模型。GPT2提出语言模型式`无监督的多任务学习` 。旨在通过无监督学习也能达到和finetune一样的效果,并且拥有更强的泛化能能力。即提出利用语言模型做下游任务时,不需要下游任务的任何标注信息(zero-shot设定),也不用训练模型。只需要训练一个模型,在多个任务上都能用。
2024-07-24 16:24:26
1290
原创 大语言模型-对比学习-Contrastive Learning
对比学习 是一种特殊的`无监督学习方法`。旨在通过`拉近相关样本的距离`并且`推远不相关样本的距离`,来学习`数据表示`。通常使用一种高自由度、自定义的规则来`生成正负样本`。在模型预训练中有着广泛的应用。
2024-07-24 11:07:07
1688
原创 大语言模型-RetroMAE-检索预训练模型
RetroMAE是2022年10月由北邮和华为提出的一种密集检索预训练策略。RetroMAE主要应用于检索模型的预训练,模型架构为非对称的Encoder-Decode结构。
2024-07-23 15:34:56
1449
原创 大语言模型-GPT-Generative Pre-Training
GPT是2018 年 6 月由OpenAI 提出的预训练语言模型。GPT可以应用于复杂的NLP任务中,例如文章生成,代码生成,机器翻译,问答对话等。GPT也采用两阶段的训练过程,第一阶段是无监督的方式来预训练生成式的语言模型,第二阶段根据特定任务进行微调。GPT的网络架构使用的是多层Transformer Decoder改的结构。
2024-07-23 11:17:33
889
原创 大语言模型-Bert-Bidirectional Encoder Representation from Transformers
Bert是2018年10月由Google AI研究院提出的一种预训练模型。主要用于自然语言处理(NLP)任务,特别是机器阅读理、文本分类、序列标注等任务。BERT的网络架构使用的是多层Transformer结构,有效的解决了长期依赖问题。
2024-07-23 01:12:00
1333
原创 大语言模型-文本检索任务基准 BEIR
BEIR(A Heterogeneous Benchmark for Zero-shot Evaluation of Information Retrieval Models)文本检索任务的基准,使用`18 个数据集`为检索系统的零样本评估提出了一个标准化基准, BEIR 基准上在`9个不同领域的检索任务`评估 `10 种不同的检索方法`。
2024-07-20 12:50:04
1192
原创 大语言模型-中文文本向量模型评估基准 C-MTEB
C-MTEB 有35个数据集,覆盖文本召回(NDCG@10),排序(MAP),分类(average precision),相似度匹配(Spearman’s correlation),聚类(average precision),文本对分类(average precision)共六个方向,最终模型表现由6大任务指标取平均值得到。
2024-07-19 17:56:44
703
原创 大语言模型-文本向量模型评估基准 MTEB
MTEB(Massive Text Embedding Benchmark)涵盖112种语言的58个数据集,包含如下`8种任务`。
2024-07-19 17:25:20
1700
原创 大语言模型-检索测评指标
1. MRR (Mean Reciprocal Rank)平均倒数排名2. AP(Average Precision)平均精度3. MAP(Mean Average Precision)平均准确率等检索评估指标
2024-07-19 14:42:30
1964
原创 大语言模型-Transformer-Attention Is All You Need
Transformer是一种由谷歌在2017年提出的深度学习模型。主要用于自然语言处理(NLP)任务,特别是序列到序列(Sequence-to-Sequence)的学习问题,如机器翻译、文本生成等。Transformer彻底改变了之前基于循环神经网络(RNNs)和长短期记忆网络(LSTMs)的序列建模范式,并且在性能上取得了显著提升。
2024-07-17 23:14:51
1261
原创 大语言模型-基础及拓展应用
基础模型(transformer、bert、gpt等)句子向量(simcse、retroMAE、sbert等)文档解析(openpaser、fitz等)向量库(faiss、es等)
2024-07-17 13:57:28
537
原创 python借助elasticsearch实现标签匹配计数
给定一组标签 [{“tag_id”: “1”, “value”: “西瓜”}, {“tag_id”: “1”, “value”: “苹果”}],我想精准匹配到现有的标签库中存在的标签并记录匹配成功的数量。
2024-04-16 18:14:12
545
原创 python借助elasticsearch实现精准查询与bm25查询
Elasticsearch query查询;python向量库;bm25搜索,精准匹配
2024-03-05 14:59:21
1385
原创 Celery结合flask完成异步任务与定时任务
Celery 常用于 web 异步任务、定时任务等。使用 redis 作为 Celery的「消息代理 / 消息中间件」。这里通过Flask-Mail使用qq邮箱延时发送邮件作为示例。
2023-09-25 15:39:22
1465
3
原创 常见优化器总结
优化器 是为了让参数根据损失函数更快更准的朝着最优方向更新的一种策略。神经网络是根据损失函数不断调整网络参数,使得最终能够获得近似最优解。
2023-09-21 20:28:03
333
1
原创 CopyRE关系抽取
模型包括编码器和解码器两部分编码器:将输入的句子(源句子)转换为固定长度的语义向量 解码器:读取该矢量并直接生成三元组。
2023-07-10 15:27:09
651
1
原创 条件随机场模型
线性链条件随机场用于标注问题,在条件概率模型P(Y|X)中,Y是输出变量表示标记序列,X是输入变量表示需要标注的观测序列。设有联合分布P(Y),由无向图G=(V, E)表示,在图G中,节点表示随机变量,边表示随机变量之间的依赖关系。均为线性链表示的随机变量序列,若在给定随机变量序列X的条件下,随机变量序列Y的条件概率分布P(Y|X)构成条件随机场,即满足马尔可夫性。条件随机场,设X与Y是随机变量,P(Y|X)是在给定X的条件下Y的条件概率分布。对任意结点v成立,则称条件概率分布P(Y|X)为条件随机场。
2023-05-31 16:30:09
1363
原创 隐马尔科夫模型
隐马尔可夫模型是关于时序的概率模型,描述由一个隐藏的马尔科夫链随机生成不可观测的状态的序列,再由各个状态随机生成一个观测而产生观测的序列的过程。
2023-05-31 14:08:58
888
原创 激活函数(Activation functions)
激活函数(Activation functions)对于人工神经网络 模型去学习、理解非常复杂和非线性的函数来说具有十分重要的作用。
2023-05-26 17:32:36
1118
原创 TPlinker解读
TPLiner,解决了之前的联合抽取模型中出现的问题,曝光偏差,即在训练阶段,与推理阶段不一致产生的影响,在解码阶段需要分多步进行,这也是它们存在曝光偏差的本质原因,TPLinker 将联合抽取描述为一个 token 对链接问题,并引入了一种新的连接方式。
2023-05-25 15:56:31
2173
转载 手动计算神经网络
神经网络最骨干的结构是由一层层相互连接的神经元组成的,信息在多个层中由前往后计算最后输出结果,这种模型称为多层感知机(MLP);为了训练出一个能够解决问题的MLP,我们使用数据通过求误差最小化的方法更新MLP的参数,这种方法称为反向传播(Back Propagation )算法。于是MLP+BP算法就是最经典的深度学习模型之一”在小红书上看到一篇关于神经网络的介绍,精简易懂,转载一下。
2023-02-23 12:00:04
181
原创 事理知识图谱
事理知识图谱可以将文本中对事件以及事件之间的关系抽取并抽象出来,构建成一个有向图形式的事理知识库。在结构上,事理知识图谱是一个有向有环图,其节点表示事件,有向边表示事件之间的演化关系,比如顺承、因果、条件和上下位等逻辑关系。事理知识图谱是描述事件之间演化规律和模式的事理逻辑知识库。
2023-02-23 11:05:15
1990
原创 时间序列分解法
影响时间序列变化的因素通常由长期趋势,季节变动,周期变动,不规则变动几部分组成TtStCtItYtfTtStCtItYtTtStCtItYtTt×St×Ct×It。
2023-02-19 17:19:28
3161
原创 时间序列分析——平滑法
平滑法是进行趋势分析和预测时常用的一种方法,利用修匀技术削弱短期随机波动对序列的影响,使序列平滑化,从而显示出变化的规律。根据平滑技术的不同,平滑法可分为移动平均法和指数平滑法。
2023-02-19 16:00:02
1983
原创 图的基本概念
图G由节点集合V=V(G)和边集合E=E(G)组成,其中V为非空有限集合。集合V中的节点(node)用红色标出,通过集合E中黑色的边(edge)连接。完全二分图 :若V的每个顶点与U的每个顶点都关联,称为完全二分图补图:一个图G的补图Gˉ\bar{G}Gˉ也是以V(G)为顶点集的一个图,但是两个顶点在Gˉ\bar{G}Gˉ中邻接当且仅当它们在G中不邻接。下图b为a的补图。是完全图去除G的边集后得到的图。子图:所有顶点和边都属于图G的图称为G的子图生成子图:含有G的所有顶点的子图称为G的
2023-02-15 17:19:56
2308
原创 知识图谱表示
知识图谱的向量表示:将知识图谱中包括实体和关系的内容映射到连续向量空间方法的研究领域。(也叫做知识图谱嵌入、知识图谱的表示学习、知识表示学习)知识图谱嵌入方法的训练需要基于监督学习。在训练过程中可以学习到语义层信息。
2023-02-14 17:31:22
1772
原创 多分类问题
针对多类问题的分类中,具体讲有两种,即multiclass classification和multilabel classification。multiclass是指分类任务中包含不止一个类别时,每条数据仅仅对应其中一个类别,不会对应多个类别。multilabel是指分类任务中不止一个分类时,每条数据可能对应不止一个类别标签,例如一条新闻,可以被划分到多个板块。
2023-02-09 11:48:16
820
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人