自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(149)
  • 资源 (1)
  • 收藏
  • 关注

原创 使用图结构增强RAG架构,一文详解LightRAG

检索增强生成(RAG)系统已被开发用于通过整合外部知识源来增强大规模语言模型(LLMs)性能。这种创新的整合使得LLMs能够生成更加准确且符合上下文的回答,显著提升了它们在实际应用中的效用。通过适应特定领域知识,RAG系统确保提供的信息不仅与用户需求相关,而且更加个性化。此外,它们还能够访问最新的信息,这在快速发展的领域中尤为重要。分块(Chunking)在促进检索增强生成过程中发挥了重要作用。通过将庞大的外部文本语料库拆分成更小、更易管理的片段,分块极大地提高了信息检索的准确性。

2024-12-01 22:29:19 1468

原创 阿里开放式AI推理模型Marco-o1震撼开源!一文详解Marco-o1的推理策略

OpenAI 最近推出了开创性的 o1 模型,以其卓越的推理能力而闻名。该模型在 AIME 和 CodeForces 等平台上表现出色,超越了其他领先模型。受此成功的启发,阿里研究团队旨在进一步拓展大型语言模型 (LLM) 的边界,增强其推理能力,以应对复杂的现实世界挑战,开源了Marco-o1推理模型。Marco-o1更加重视开放式问题的解决,目标是解决这个问题:“o1模型能否有效地推广到缺乏明确标准且奖励难以量化的更广泛领域?

2024-12-01 22:28:31 969

原创 阿里开放式AI推理模型Marco-o1震撼开源!一文详解Marco-o1的推理策略

OpenAI 最近推出了开创性的 o1 模型,以其卓越的推理能力而闻名。该模型在 AIME 和 CodeForces 等平台上表现出色,超越了其他领先模型。受此成功的启发,阿里研究团队旨在进一步拓展大型语言模型 (LLM) 的边界,增强其推理能力,以应对复杂的现实世界挑战,开源了Marco-o1推理模型。Marco-o1更加重视开放式问题的解决,目标是解决这个问题:“o1模型能否有效地推广到缺乏明确标准且奖励难以量化的更广泛领域?

2024-11-24 20:37:41 1172

原创 早期超大规模语言模型的尝试——BLOOM模型论文解读,附使用MindSpore和MindNLP的模型和实验复现

BLOOM是由BigScience社区开发和发布的,也是第一个开源开放的超过100B的语言模型。BLOOM 本身是变换器网络Transformer解码器(Decoder-Only)模型,在一个称之为ROOTS的语料库上训练出来的176B参数规模【和 GPT-3一样的规模】的自回归语言模型。训练 BLOOM 的算力成本超过300万欧元,由CNRS 和 GENCI提供,训练模型的机器是法国巴黎的Jean Zay超级计算机。BLOOM是在2021年5月至2022年5月的一年时间里完成训练并发布的。

2024-11-21 13:24:34 1230

原创 Baichuan2 模型详解,附实验代码复现

近年来,大规模语言模型(LLM)领域取得了令人瞩目的进展。语言模型的参数规模从早期的数百万(如 ELMo、GPT-1),发展到如今的数十亿甚至上万亿(如 GPT-3、PaLM 和 Switch Transformers)。随着模型规模的增长,LLM 的能力显著提升,展现出更接近人类的语言流畅性,并能执行多样化的自然语言任务。ChatGPT 的推出进一步证明了 LLM 在生成类人文本方面的强大能力,引起了广泛关注。

2024-11-21 13:21:57 1319

原创 从超牛提示Thinking-Claude开始谈起:Prompt究竟要怎么写才能最大程度的激发LLM的能力?

后o1时代,提示逐渐抽象且意识流,Thinking Claude与其他提示不同,像是给Claude3.5解释了什么是思考,这是其他思维链提示不曾做过的。将思考这个抽象的概念具体化,让模型更好的理解思考是什么,激发出了Claude更好的思考能力,大模型普遍建模了人类的思维模式,理论上我们也可以像@Richards Tu一样,让其他大模型输出对思考的理解,加以人类的修改,通过人类和大模型的不断迭代,探索出其他大模型最优的思维模板。

2024-11-15 13:15:09 3532

原创 一文读懂什么是RAG?附MindSpore和MindNLP实现的TinyRAG框架

首先我们给出RAG的定义:RAG(Retrieval-Augmented Generation)技术是一种结合了信息检索(Retrieval)和生成式模型(Generation)的人工智能方法。对于用户的Query,它首先通过检索系统从大规模知识库中提取相关信息,然后将这些信息输入到生成式模型中,以生成更加准确和上下文相关的文本。RAG技术在自然语言处理任务中表现出色,特别是在需要结合外部知识来生成文本的场景,如问答系统、对话生成和文档摘要等。

2024-11-13 19:28:21 714

原创 这篇文章猜测了GPT-o1的推理模式?《A Comparative Study on Reasoning Patterns of OpenAI‘s o1 Model》

大型语言模型(LLM)在多项任务中取得了显著成功,如常识推理、编程、数学和对话等领域。为了进一步提升模型性能,研究人员不断增加模型参数数量并扩展训练数据。然而,简单地扩展模型参数的方法正逐渐接近瓶颈,性能提升的效率逐步降低。最近,诸如 Best-of-N(BoN)和 Self-Refine 等测试时计算方法被提出,旨在推理阶段提升模型性能,并已被证明比单纯增加模型参数更为高效。然而,当前缺乏研究对比不同测试时计算方法在各任务上的有效性,而此类研究能够为开发新模型的研究人员提供重要指导。

2024-11-12 17:19:14 603

原创 不需要Prompt也能激发大模型思维链能力?谷歌DeepMind新作提出CoT新范式

大型语言模型(LLM)在多种复杂推理基准测试中展示了卓越的表现。LLM的这些推理能力通常通过提示技巧引出,可以是通过包含中间步骤的少样例提示(few-shot prompting)进行示例增强,或是通过带有具体指令的零样例提示(zero-shot prompting),要求展示某些中间步骤。另一种常见的引出LLM推理能力的策略是通过使用大量的链式思维(CoT)推理数据进行模型训练或指令微调。提示技巧虽然有效,但通常会编码任务特定的人为先验,因而难以评估语言模型的内在推理能力。

2024-11-10 15:02:40 1052

原创 MoE新范式?解析DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models24

最近的研究和实践经验表明,在有足够训练数据的情况下,通过增加参数和计算预算来扩展语言模型可以显著提升模型性能。然而,必须承认,将模型扩展到极大规模的努力也伴随着极高的计算成本。考虑到这些高昂的成本,混合专家(Mixture-of-Experts, MoE)架构已成为一种流行的解决方案。它能够在保持计算成本适中的同时,实现参数扩展。最近在Transformer中应用MoE架构的成功尝试,已经将语言模型扩展到相当大的规模,并取得了显著的性能提升。这些成就突显了MoE语言模型巨大的潜力和前景。

2024-11-05 12:33:20 1904

原创 从《Mixtral of Experts》开始讲讲MoE

我们介绍了,一种稀疏专家混合模型(Sparse Mixture of Experts,SMoE)语言模型。Mixtral 的架构与 Mistral 7B 相同,不同之处在于每一层由 8 个前馈块(即专家)组成。对于每个 token,在每一层中,路由网络会选择两个专家来处理当前状态并结合它们的输出。尽管每个 token 仅会接触到两个专家,但每个时间步选择的专家可以不同。因此,每个 token 可以访问到 470 亿个参数,但在推理过程中仅使用了 130 亿个活跃参数。

2024-11-04 21:09:55 1455

原创 CompeteAI:模拟社会中的竞争(ICML2024)

基于该框架,我们将环境实现为一个小镇,其中包含两种实体:2家餐厅和50名顾客。顾客可以是个人或团体(例如家庭、情侣或同事),详情见附录C.2。我们假设每个顾客不会做饭,必须去其中一家餐厅用餐。为了简化观察,我们假设每个顾客每天应该在一家餐厅吃一次饭。为了盈利,餐厅必须竞争以吸引更多顾客。在本文中,餐厅和顾客都由基于LLM的代理驱动,即GPT-4(0613)(OpenAI, 2023)。具体来说,每家餐厅由一个代理管理,每天向顾客提供食物。

2024-10-16 14:34:11 763

原创 MindPilot:一款基于MindSpore和MindNLP的开源智能助手——基于MindPilot和MindNLP的智能AI Agent助手MindPilot正式开源!

与市场上现有的智能助手相比,MindPilot最大的创新之一在于其。

2024-10-08 10:02:02 1234

原创 心智理论在LLM中真的有用吗?《Limits of Theory of Mind Modelling in Dialogue-Based Collaborative Plan Acquisition》

基于对话的人机协作是指人类与人工智能(AI)代理通过对话来实现共同目标或任务的互动(Streeck等人,2011)。当人类相互协作时,他们依赖于两种主要能力:语言交流和心智理论(Theory of Mind, ToM),即推断自己和他人心理状态的能力(Premack和Woodruff,1978)。因此,为了成功与人类协作,AI代理也必须具备类似的能力(Williams等人,2022)。

2024-09-18 17:11:23 979

原创 结合蒙特卡洛树算法与对话规划:论文解读《Prompt-Based Monte-Carlo Tree Search for Goal-oriented Dialogue Policy Planning》

为了引入用于对话策略规划的树搜索方法,我们首先将规划表示为马尔可夫决策过程(MDP)。系统和用户之间的一个tha0sysu1sysu1usrat−1sysutsysutusrha0sys​u1sys​u1usr​...at−1sys​utsys​utusr​其中,aisysa_i^{sys}aisys​是第i轮中系统的对话行为,uisys。

2024-09-16 16:19:41 1136

原创 【详细原理】蒙特卡洛树搜索

蒙特卡罗树搜索是一种强大的搜索算法,能够在复杂的决策空间中进行有效的搜索。通过大量的随机模拟和巧妙的选择策略,MCTS 在许多领域都展现出了卓越的性能。然而,其计算成本和对模拟策略的依赖性也是需要考虑的因素。随着计算能力的提升和算法的改进,MCTS 的应用前景将更加广阔。

2024-09-16 12:00:26 1453

原创 更主动的对话规划者:PPDPP论文解读

论文引入了一种新颖的对话策略规划范式,利用一个可调的语言模型插件(命名为“即插即用对话策略规划器”PPDPP)来为大语言模型(LLM)制定策略。如图1(b)所示,PPDPP充当策略代理,预测对话代理在下一轮中应采取的对话策略。该策略首先可以通过现有的人类注释语料库进行有监督微调。然后,我们采用自我博弈范式,提示两个LLM(一个作为助手,一个作为用户)根据不同的案例背景信息进行角色扮演对话,以模拟对话代理和实际用户之间的多轮交互动态环境。

2024-09-15 20:56:37 1352

原创 融合直觉和理性:ACL2024《Planning Like Human: A Dual-process Framework for Dialogue Planning》解读

受心理学中的双重加工理论启发,该理论指出两种截然不同的思维模式——直觉(快速)和分析(缓慢),我们提出了“双重加工对话规划”(DualProcess Dialogue Planning, DPDP)框架。DPDP通过两种互补的规划系统体现了这一理论:在熟悉的上下文中采用直觉的策略模型,而在复杂和新颖场景中则使用深思熟虑的蒙特卡洛树搜索(MCTS)机制。

2024-09-13 17:09:27 1370

原创 LLaMa系列模型详解(原理介绍、代码解读):LLaMA 3

2024年4月18日,Meta 重磅推出了Meta Llama 3,Llama 3是Meta最先进开源大型语言模型的下一代,包括具有80亿和700亿参数的预训练和指令微调的语言模型,能够支持广泛的应用场景。这一代Llama在一系列行业标准基准测试中展示了最先进的性能,并提供了新的功能,包括改进的推理能力。

2024-05-20 15:06:39 28778 2

原创 LLaMa系列模型详解(原理介绍、代码解读):LLaMA 2

大型语言模型(LLMs)作为高度能力的人工智能助手,在需要跨多个领域专家知识的复杂推理任务中表现出巨大潜力,包括编程和创意写作等专业领域。它们通过直观的聊天界面与人类互动,这导致了快速和广泛的公众采用。考虑到训练方法的看似简单性,LLMs 的能力令人瞩目。自回归变压器首先在大量自监督数据上进行预训练,然后通过强化学习与人类反馈(RLHF)等技术与人类偏好对齐。尽管训练方法简单,但高计算需求限制了 LLMs 的开发,仅由少数参与者进行。

2024-05-19 16:41:34 5885 1

原创 LLaMa系列模型详解(原理介绍、代码解读):LLaMa

下图很直观的展示了旋转变换的过程:旋转编码 RoPE 可以有效地保持位置信息的相对关系,

2024-05-17 22:08:51 16114 2

原创 GRACE:梯度引导的可控检索增强基于属性的生成

在本文中,我们提出通过梯度引导的可控检索(GRACE)来增强基于属性的生成,考虑到目标属性(见图1)。具体来说,我们训练一个鉴别器来计算给定上下文的属性分布。我们构建了一个检索库,存储了从未标注数据中提炼出的自然文本及其语义和属性信息。生成模型通过可控检索提取具有相似语义的与属性相关的信息。我们设计策略来从检索结果中分离无关属性,并将预训练语言模型(PLM)表示融入生成过程中。此外,我们提出了一个算法,该算法基于梯度迭代修正逐步生成。

2024-03-17 13:38:47 1085

原创 Multi-Attribute Controlled Text Generation with Contrastive-Generator and External-Discriminator

(1)提出了一种用外部判别器训练的对比生成器,以有效地生成具有所需属性的文本。还设计了 top-n 加权解码来进一步提高文本和所需属性之间的相关性。(2)我们进行了大量的实验来证明我们的方法可以在不牺牲语言质量的情况下生成具有所需情感和主题的文本。此外,我们的框架可以推广到新的控制代码,并在零样本生成上实现有希望的性能。

2024-03-14 13:32:54 981

原创 Controllable Natural Language Generation with Contrastive Prefixes:使用前缀微调指导多属性文本生成

(1)提出了一种新颖的框架,该框架利用带有冻结 LM 的前缀作为可控 GPT2 生成的轻量级替代方案。(2)提出了一种具有新颖目标的监督方法和无监督方法来进行前缀训练,其中考虑了前缀之间的关系并同时训练多个前缀。(3)这项工作为单方面控制和多方面控制提供了统一的视角。实验结果表明,我们的方法可以有效地指导单方面控制和多方面控制的生成。

2024-03-13 11:57:23 1091

原创 Attribute Alignment: Controlling Text Generation from Pre-trained Language Models:利用属性标签指导属性文本生成

在本文中,我们提出了属性对齐,将属性表示注入到预先训练的无条件 LM 中,而不改变 LM 参数。然而,由于在大规模预训练期间属性信号并未使用 LM 进行训练(Johnson et al., 2016;Keskar et al., 2019),因此我们引入了一个对齐函数来将属性表示桥接到 LM,以便它可以解释属性表示中的权重。简单来说,先使用LM对属性建模,然后使用属性对齐将其融合指导文本生成。

2024-03-12 20:13:07 872

原创 A Distributional Lens for Multi-Aspect Controllable Text Generation:一种创新性的多属性受控文本生成方法

正如上图所示,我们的方法主要涉及属性空间的构建,包括估算属性空间、搜索交集以及将交集映射到句子上。首先,我们旨在使用采样句子来构建一个属性空间,以尽可能准确地估计真实空间。我们采用了一个自编码器结构,其中潜在表征表示构成我们估计属性空间的点。为了确保我们的估计空间可靠地模型化属性,比如它们的概率分布和不同属性之间的关系,我们进一步附加了三个约束到表示上。(I)重构损失LRL_RLR​旨在桥接属性空间中的点与自然属性相关句子之间的差距,这是通过内容反映的属性来恢复的。(II)属性分类损失LC。

2024-03-12 12:12:31 952

原创 基于GPT-2的中文闲聊模型(Mindspore适配版),将Pytorch版本的GPT2中文闲聊模型移植为MindSpore版本并使用Gradio完成类似ChatGPT的聊天功能

基于GPT-2模型并采用中文聊天语料进行训练,本项目旨在开发一个高效能的中文闲聊机器人,以提供自然而流畅的对话体验。GPT-2,作为OpenAI推出的一款自然语言处理模型,因其强大的语言理解与生成能力而广受好评。本项目通过精心挑选和处理大量的中文聊天数据,使得闲聊机器人能够更加精准地把握中文语境和文化特点,从而在各种聊天场景中提供贴近人类的对话体验。全部代码和模型均在文末给出。

2024-02-03 17:26:07 1575 2

原创 从零开始复现GPT2(六):生成代码的实现

这段代码是一个完整的Python脚本,用于通过命令行界面生成使用GPT-2模型训练的文本。类,它使用了GPT-2模型。这个类能够基于给定的上下文生成文本。库来解析命令行参数。代码定义了一个用于文本生成的。

2024-02-03 15:48:22 1383

原创 从零开始复现GPT2(五):评估和可视化代码的实现

整体上,这个工具提供了一种灵活的方式来分析和理解模型在训练和评估过程中的性能变化,对于模型调优和理解其行为模式非常有帮助。这个实现体现了在NLP模型开发中常见的模式,即通过特定的评估规范和灵活的命令行参数接收方式,来支持模型的评估和性能分析。:接收通过命令行传入的参数,包括模型路径、评估语料库路径、词汇表路径、模型配置(序列长度、层数、头数、维度等)以及评估配置(批量大小、总步数、是否使用GPU)。:初始化评估规范时,接收评估数据集、词汇表路径、序列长度、模型的层数、头数、维度以及维度增长率等参数。

2024-02-02 16:54:18 771

原创 从零开始复现GPT2(四):训练代码的实现

参数列表训练批量大小,指定在训练过程中每个批次处理的数据数量。评估批量大小,指定在模型评估过程中每个批次处理的数据数量。总步数,指训练过程中的总迭代次数。评估步数,指定每多少步进行一次模型评估。保存步数,指定每多少步保存一次模型。模型保存路径,指定训练好的模型保存的位置。检查点保存路径,用于保存训练过程中的中间状态,以便于恢复训练或进行故障恢复。描述信息,用于记录这个训练配置的描述或备注。日志格式,指定训练过程中日志的输出格式。

2024-02-01 11:08:34 1556

原创 从零开始复现GPT2(三):词表,Tokenizer和语料库的实现

在构建词表的场景中,将词表大小设置为8的倍数可以确保数据在内存中的对齐。内存对齐是指数据在内存中按照一定的边界存储,这样做可以减少CPU或GPU在访问内存时的负载,从而提高数据处理的速度和效率。这个类的主要目的是为了处理一个经过分词处理的语料库,并在此基础上提供一些实用功能,适用于深度学习和自然语言处理任务中。类,这个类使用了一个词汇表(Vocab)实例和一些其他参数来进行文本的处理和标记化。是一个字典,将每个词汇映射到其在列表中的索引,以便快速查找。是一个列表,包含了所有的词汇(包括额外的特殊标记)。

2024-01-31 11:00:20 2512 1

原创 从零开始复现GPT2(二):模型实现和掩码机制

表示了 Transformer 模型中的一个层级,包括多头注意力层和前馈神经网络层,以及 Layer Normalization 层,用于处理序列数据和生成下一个时间步的输出。类用于创建一个未来掩码(future mask),在自回归模型GPT-2中,此掩码用于确保在预测每个位置的输出时,模型只能使用该位置之前的输入(即避免使用未来的信息)。这样,模型在训练时能够更好地捕捉数列中的因果关系,而不受到未来数字的干扰。通过在序列的未来位置添加偏移,创建了一个上三角的掩码,以避免模型在训练时看到未来的信息。

2024-01-22 11:49:54 1857

原创 从零开始复现GPT2(一):注意力机制、嵌入层和前馈神经网络的实现

网络则增强了模型在处理序列数据时的能力,使其能够在每个位置学习高级特征。这些特性共同使 GPT-2 成为处理各种复杂自然语言处理任务的强大工具。作为一种有效的激活函数,帮助模型捕捉非线性关系;,都是继承自 PyTorch 的。

2024-01-21 13:30:26 2259 3

原创 DuNST详解:将Self-Training机制融入受控文本生成中

让xxx为文本,yyy为属性标签,DlxiyiDl​{(xi​yi​)}是一个带有配对文本及其相应标签的标记数据集,DuxiDu​xi​是来自同一领域的无标记数据集。我们的目标是学习一个由θ\thetaθ参数化的属性可控生成器Ggθx∣yGgθ​x∣y(例如,一个大型的PLM),以生成高质量的文本x∼gθx∣yx∼gθ​x∣y(以自回归方式),满足给定的标签yyy。

2024-01-19 14:06:12 535

原创 从零开始复现BERT,并进行预训练和微调

这段代码是使用BERT模型进行预训练和微调的一个完整示例,主要包括预训练数据的处理、模型的加载和微调。中,主要工作是将输入的查询(queries)、键(keys)和值(values)通过三个独立的线性层进行转换,以生成对应的查询、键和值表示。在这个函数中,首先将模型部署到可用的GPU上(如果有的话),然后在每个epoch中遍历训练数据,使用交叉熵损失函数计算损失,并通过反向传播更新模型参数。在每一步训练中,首先将数据移动到指定的设备(如GPU),然后执行前向和后向传播,计算损失并更新模型的权重。

2024-01-10 10:59:04 2822

原创 BART论文解读:BERT和GPT结合起来会发生什么?

为了与当前摘要任务的最新技术进行比较,我们在两个具有不同特点的摘要数据集CNN/DailyMail和XSum上展示了结果。CNN/DailyMail中的摘要倾向于与源句子相似。抽取式模型在这里做得很好,甚至仅用前三个源句子作为基线的表现也非常有竞争力。尽管如此,BART在所有已有的工作中表现最好。相比之下,XSum高度概括,抽取式模型表现不佳。BART在所有ROUGE指标上大约比利用BERT的最佳前作提高了6.0分,这代表了在这一问题上性能的重大进步。在质量上,样本的质量很高(见第6节)。

2024-01-06 10:45:08 1705 1

原创 一种可扩展的多属性可控文本生成即插即用方法

相互干扰(MI)”是指在推理阶段(即零样本设置)时,多个单独训练但同时指导预训练模型的插件之间的干扰。然而,由于深度神经网络的复杂性,确切的干扰分析是困难的。直观上,如果在训练期间多个插件是同时优化的,这需要多方面标记的数据,它们的干扰将被最小化,因为它们已经学会在监督下合作地工作(即在监督设置中)。因此,我们使用在监督和零样本设置下隐藏状态的差异来近似估计多个插件的相互干扰。具体来说,让ϕiϕ​i​和ϕiϕ​i​分别是从单方面和多方面标记数据中学习的插件的参数。

2024-01-03 16:10:44 1144

原创 人工智能能理解幽默吗?《Can Language Models Make Fun A Case Study in Chinese Comical Crosstalk》论文解读

以“对口”为例。双人表演通常涉及两个角色,称为“捧哏”(简称“Peng”)和“逗哏”(简称“Dou”)。Dou的目标是通过语言和动作以滑稽的方式进行表演。Peng是支持角色,使对话更加流畅和清晰。Φu1v1u2v2uKvKΦ{(u1​v1​u2​v2​uK​vK​)}这是一个KKK轮的双向串话对话,包含2K个话语,其中K个来自于Dou(记为uuu)和KKK个来自于Peng(记为vvv请注意,uiu_iui​和。

2023-12-27 21:22:17 711

原创 基于GPT-2的新闻文本生成——News Creator,使用MindSpore实现

基于GPT-2的新闻本文生成项目——News Creator,是一个创新的自然语言处理项目,使用GPT-2作为核心模型,并结合专为新闻内容设计的AG news数据集进行深度微调。项目通过LoRA技术进一步提升了模型在特定新闻文本生成任务上的表现,有效地结合了模型的泛化能力与任务特异性,使其更加适合于高效、高质量的新闻文章生成。

2023-12-27 19:00:11 1397

原创 论文笔记:详解NEUPSL DSI

Dialog Structure Induction(DSI)是推断给定目标导向对话的潜在对话结构(即一组对话状态及其时间转换)的任务。它是现代对话系统设计和话语分析的关键组件。Probabilistic Soft Logic (概率软逻辑,PSL)是一种在统计关系学习和推理中使用的框架。它结合了逻辑编程的可解释性与概率模型的不确定性处理能力,适用于处理不确定和复杂的关系数据。

2023-11-25 20:53:37 620

BERT复现,包括数据集,预训练和微调

BERT 是一种基于 Transformer 架构的大型预训练模型,它通过学习大量文本数据来理解语言的深层次结构和含义,从而在各种 NLP 任务中实现卓越的性能。 核心的 BERTModel 类集成了模型的主体架构。它首先利用 BERTEncoder 编码器来处理输入的文本。这个编码器由多个 Transformer 编码块构成,每个编码块内包含多头注意力机制和前馈神经网络。这种结构能够有效地捕捉文本中不同词汇间的复杂关联,使模型能够理解上下文中的语义信息。模型还包括了两个关键任务:掩蔽语言模型(MaskLM)和下一句预测(NextSentencePred)。MaskLM 任务通过随机掩蔽输入文本中的某些单词,训练模型去预测这些被掩蔽的单词,从而学习语言的内部结构。下一句预测任务则是让模型判断两个句子是否是连续的,这有助于模型理解句子间的关系。 在 BERTEncoder 类中,包含了一个词嵌入层、一个段落嵌入层以及位置嵌入,这些嵌入层共同为模型提供了关于单词、其在句子中的位置以及句子所属段落的信息。随后,这些嵌入信息被送入一系列的 Transformer 编码块中,每个编码块都包含了多

2024-01-11

智能组卷和线上考试系统

1. 用户管理,实现用户注册登录,实现权限控制,学生可查看试题,模拟测试,查看成绩,教师可添加试题,发布考试,统计成绩等。 2. 题库管理,题目的录入,检索,维护,删除。 3. 智能组卷,由教师指定试卷难度,按照题库中的抽题策略进行组卷 4 . 在线考试,管理员发布考试,学生可以在指定日期在线考试,查看分数 5. 模拟练习,学生可以使用随机生成的模拟试卷检测学习成果,查看结果和分数 6. 成绩可视化,管理员可以查看整个参加考试的学生的成绩总分布

2023-03-14

qt项目 类似qq的网络聊天室

支持发送表情,文件,源码加备注,方便易懂

2022-02-10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除