预训练模型
文章平均质量分 78
主要是预训练模型paper和code
发呆的比目鱼
凡尔赛程序狗一枚,日常划水!! 目前专注于生物医学与计算机交叉学科。 承接各种学生作业,论文复现!!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
基于知识图谱与大语言模型的中药方剂智能生成TCM-KLLaMA
《基于知识图谱与大语言模型的中药方剂智能生成TCM-KLLaMA》研究提出了一种创新方法,通过构建中医症状知识图谱(涵盖症状、舌象和脉象信息)并开发SMKI机制,有效提升了大语言模型在中药方剂推荐中的准确性。该方法采用知识图谱与模糊检索相结合的技术,能够识别输入中的同义表达或错误信息,并通过改进模型输出层和训练损失函数,显著减少了无关或错误药物的生成。实验结果表明,SMKI机制在相似度阈值优化和未知症状处理方面表现出色,使TCM-KLLaMA模型在方剂生成任务中取得了优于基准模型的性能表现,为智能化中医诊疗转载 2025-07-03 09:30:11 · 244 阅读 · 0 评论 -
2025-CODEI/O: Condensing Reasoning Patterns via Code Input-Output Prediction
本文提出了CODEI/O方法,通过将代码转换为输入-输出预测任务,系统性地提取程序中的推理模式。该方法让语言模型用自然语言预测代码的输入/输出,解耦推理逻辑与代码语法,同时保持程序严谨性。实验表明,CODEI/O在符号、科学、数学等多样化推理任务中均取得平衡提升,且性能随训练数据规模稳定增长。多轮修订版本CODEI/O++进一步优化了模型表现,证明了该方法的有效性和泛化能力。原创 2025-06-22 00:12:37 · 849 阅读 · 0 评论 -
2025-Open thougths DATA RECIPES FOR REASONING MODELS
《OpenThinker-32B:数据驱动的开源推理新SOTA》摘要 斯坦福与UC伯克利等机构联合推出开源推理模型OpenThinker-32B,性能媲美DeepSeek-R1-32B。研究提出系统化数据构建方法,通过四代数据集迭代(17K→1.2M),采用严格验证和质量过滤策略。核心创新包括:1)构建多领域OpenThoughts3-1M数据集;2)优化数据管道(问题混合、LLM过滤、答案多样性);3)发现QwQ-32B作为适配性最佳教师模型。实验显示,该方法在数学(AIME)、代码(GPQA)等任务中表原创 2025-06-20 11:36:22 · 997 阅读 · 0 评论 -
2023-ICLR-ReAct 首次结合Thought和Action提升大模型解决问题的能力
摘要:普林斯顿大学与Google Research合作提出ReAct框架,将语言模型的推理与行动能力相结合。该框架通过交替生成推理痕迹(Thought)和任务行动(Action)提升模型在复杂任务中的表现,并在HotpotQA和FEVER基准测试中验证其有效性。实验对比了标准提示、思想链(CoT)等基线方法,结果表明ReAct能显著提升任务解决能力。研究还开源了代码,并在LangChain中实现相关Prompt模板,通过工具调用(如搜索、计算)展示其实际应用效果。该方法为增强LLM的interpretabi原创 2025-05-29 11:41:18 · 639 阅读 · 0 评论 -
Agent 的7 中设计模式
代理” 有多种定义。一些客户将代理定义为完全自主的系统,能够在较长时间内独立运行,使用各种工具完成复杂任务。另一些客户则用该术语来描述遵循预定义工作流程的更具规范性的实现。在 Anthropic,我们将所有这些变体归类为代理系统,但在工作流程和代理之间划出了一个重要的架构区别:工作流是通过预定义代码路径协调 LLM 和工具的系统。另一方面,代理是 LLM 动态指导其自身流程和工具使用的系统,可以控制其完成任务的方式。下面,我们将详细探讨这两种代理系统。原创 2025-05-28 13:56:51 · 878 阅读 · 1 评论 -
向量数据库weaviate
对应AUTHENTICATION_APIKEY_ALLOWED_KEYS中的密钥# 注意:此处只需要密钥即可,不需要用户名称连接的本地部署的,可以连接服务器上部署的向量服务器。http_host和grpc_host替换服务器地址,两个是一样的5.注意事项如果你翻墙了或者开了代理,报502,连接失败。开启代理解决办法:Clash Verge点击系统代理,代理绕过里面添加192.168.*(代理里面使用规则,不要使用全球)转载 2024-11-08 10:14:07 · 845 阅读 · 0 评论 -
大型语言模型的生物医学知识图优化提示生成
KG-RAG框架,较好的结合了生物医学知识图谱SPOKE和LLM的优势。SPOKE是一个开放知识图谱,提供数据下载和开放API,整合了超过40个公开可用的生物医学知识源,涵盖了基因、蛋白质、药物、化合物、疾病等概念和概念之间的关系,可以为LLM提供一个强大的医疗领域知识。研究人员对KG-RAG框架进行了广泛的测试,包括单跳和双跳提示、药物再利用查询、生物医学真假问题和多项选择题。结果表明,KG-RAG显著提高了LLMs的性能,特别是在具有挑战性的多项选择题数据集上,LLMs都取得了较大的提升。原创 2024-07-21 12:28:57 · 1444 阅读 · 0 评论 -
中药垂直大模型汇总
ShenNong-TCM由华东师范大学计算机科学与技术学院智能知识管理与服务团队完成,旨在推动大型语言模型在中医药领域的发展和落地,提升大型语言模型的在中医药方面的知识与回答医学咨询的能力,同时推动大模型赋能中医药传承。原创 2024-05-22 17:18:51 · 5942 阅读 · 0 评论 -
2023-ICLR-Adaptive Budget Allocation for Parameter-Efficient Fine-Tuning
2023-ICLR-Adaptive Budget Allocation for Parameter-Efficient Fine-Tuning原创 2023-11-01 11:04:58 · 460 阅读 · 0 评论 -
LLaMA-Adapter源码解析
LLaMA-Adapter源码解析原创 2023-11-01 10:27:56 · 1175 阅读 · 0 评论 -
2023-arxiv-LLaMA-Adapter Efficient Fine-tuning of Language Models with Zero-init Attention
2023-arxiv-LLaMA-Adapter Efficient Fine-tuning of Language Models with Zero-init Attention转载 2023-11-01 10:19:08 · 388 阅读 · 0 评论 -
IA3源码分析
IA3源码分析原创 2023-10-31 18:55:18 · 490 阅读 · 0 评论 -
2022-arxiv-Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than In-Context Learning
少样本参数高效微调比上下文学习更好、更便宜转载 2023-10-31 18:01:11 · 523 阅读 · 0 评论 -
Lora源码分析
Lora源码分析原创 2023-10-30 17:27:49 · 388 阅读 · 0 评论 -
2021-arxiv-LoRA Low-Rank Adaptation of Large Language Models
2021-arxiv-LoRA Low-Rank Adaptation of Large Language Models原创 2023-10-30 11:10:59 · 674 阅读 · 0 评论 -
P-Tuning 源码分析
P-Tuning 源码分析原创 2023-10-30 10:14:40 · 399 阅读 · 0 评论 -
2022-arxiv-P-Tuning v2 Prompt Tuning Can Be Comparable to Fine-tuning Universally Across Scales and
2022-arxiv-P-Tuning v2 Prompt Tuning Can Be Comparable to Fine-tuning Universally Across Scales and原创 2023-10-30 09:53:20 · 206 阅读 · 0 评论 -
2021-arxiv-GPT Understands, Too
2021-arxiv-GPT Understands, Too原创 2023-10-30 09:14:11 · 395 阅读 · 0 评论 -
Prompt-Tuning源码分析
Prompt-Tuning源码分析原创 2023-10-25 10:26:27 · 1050 阅读 · 0 评论 -
2021-arXiv-The Power of Scale for Parameter-Efficient Prompt Tuning
2021-arXiv-The Power of Scale for Parameter-Efficient Prompt Tuning原创 2023-10-25 09:57:01 · 777 阅读 · 0 评论 -
Prefix-Tuning源码解析
Prefix-Tuning源码解析原创 2023-10-19 13:31:56 · 1914 阅读 · 0 评论 -
2021-arxiv-Prefix-Tuning- Optimizing Continuous Prompts for Generation
2021-arxiv-Prefix-Tuning- Optimizing Continuous Prompts for Generation原创 2023-10-19 13:18:00 · 1025 阅读 · 0 评论 -
accelerate+deepspeed多机多卡训练的两种方法(三)
accelerate+deepspeed多机多卡训练的两种方法(三)转载 2023-09-10 17:27:20 · 6875 阅读 · 0 评论 -
使用DeepSpeed加速大型模型训练(二)
使用DeepSpeed加速大型模型训练(二)原创 2023-09-10 16:58:51 · 3962 阅读 · 0 评论 -
accelerate 分布式技巧实战--部署ChatGLM-6B(三)
accelerate 分布式技巧实战--部署ChatGLM-6B(三)原创 2023-09-07 16:30:26 · 1478 阅读 · 0 评论 -
accelerate 分布式技巧-- 模型参数设备分配(二)
accelerate 分布式技巧-- 模型参数设备分配(二)转载 2023-09-07 16:19:30 · 1838 阅读 · 0 评论 -
accelerate 分布式技巧(一)
accelerate 分布式技巧(一)原创 2023-09-06 15:41:44 · 4118 阅读 · 0 评论 -
2023-arxiv-LLaMA: Open and Efficient Foundation Language Models
2023-arxiv-LLaMA: Open and Efficient Foundation Language Models原创 2023-08-13 16:08:33 · 875 阅读 · 1 评论 -
HuggingFace Schedulers 和差分学习率指南
HuggingFace Schedulers 和差分学习率指南翻译自 https://www.kaggle.com/rhtsingh/guide-to-huggingface-schedulers-differential-lrs原创 2021-07-09 00:52:28 · 630 阅读 · 0 评论 -
NLP预训练汇总
NLP预训练汇总原创 2022-05-09 15:04:53 · 247 阅读 · 0 评论 -
DEBERTA: DECODING-ENHANCED BERT WITH DISENTANGLED ATTENTION
Paper: https%3A//arxiv.org/pdf/2006.03654.pdfCode: https%3A//github.com/microsoft/DeBERTa在DeBerta中单词间的权重分别根据其内容和相对位置使用解耦的矩阵进行计算。DeBERTa将上下文的内容和位置信息用于MLM。考虑这些词的绝对位置。新的虚拟对抗训练方法,用于将PLM微调到下游NLP任务。DEBERTA:具有分离注意力的解码增强型 BERT预训练神经模型的研究已经显著提高了许多自然语言处理(N.原创 2022-04-11 22:23:50 · 1370 阅读 · 0 评论 -
BioBERT: a pre-trained biomedical language representation model for biomedical text mining
BioBERT: a pre-trained biomedical language representation model for biomedical text miningPaper:https://arxiv.org/abs/1901.08746Code: https://github.com/naver/biobert-pretrained, https://github.com/dmis-lab/biobertAbstract动机随着生物医学文档数量的快速增长,生物医学文本挖掘变翻译 2022-04-06 15:45:43 · 2835 阅读 · 0 评论 -
T5 模型:NLP Text-to-Text 预训练模型
T5 模型:NLP Text-to-Text 预训练模型摘要迁移学习,即首先对模型进行数据丰富任务的预训练,然后再对下游任务进行微调,已经成为自然语言处理(NLP)中的一项强大技术。迁移学习的有效性导致了迁移学习方法、方法和实践的多样性。在本文中,我们通过引入一个统一的框架,将所有基于文本的语言问题转换成文本到文本的格式,来探索自然语言处理的迁移学习技术的前景。我们的系统研究比较了数十个语言理解任务的训练前目标、架构、未标记数据集、迁移方法和其他因素。通过结合我们对规模的探索和我们新的大规模清洁爬行语转载 2022-03-24 22:58:53 · 4379 阅读 · 0 评论 -
Transformer简版实战教程
Transformer简版实战教程至于Transformer的理论内容可以参考Transformer 与 Attention和Transformer 与 Attention的一些Trick本文主要实战, 这是一个简单版本的Transformer实现,也便于大家理解。准备需要准备的是翻译的语料集sentences以及模型参数src_vocab-输入词表, tgt_vocab目标词表,src_len 和tgt_len是句子的最大长度,d_model是hidden_size维度大小, d_ff是前馈网络原创 2021-12-22 17:46:54 · 7681 阅读 · 0 评论 -
ELMO实战-命名实体识别
ELMO模型实战-命名实体识别数据处理import numpy as npimport torchimport os# shared global variables to be imported from model alsoUNK = "$UNK$"NUM = "$NUM$"NONE = "O"# special error messageclass MyIOError(Exception): def __init__(self, filename): #原创 2021-08-14 14:13:11 · 637 阅读 · 0 评论 -
BERT模型
BERT模型Paper: https://arxiv.org/abs/1810.04805BERT 全称为Bidirectional Encoder Representation from Transformers(来自Transformers的双向编码表示),谷歌发表的发的论文Pre-traning of Deep Bidirectional Transformers for Language Understanding中提出的一个面向自然语言处理任务的无监督预训练语言模型。是近年来自然语言处理领域公原创 2021-08-07 21:16:50 · 28840 阅读 · 2 评论 -
GPT模型
GPT模型Paper:https://s3-us-west-2.amazonaws.com/openai-assets/research-covers/language-unsupervised/language_understanding_paper.pdf摘要GPT是OpenAI在论文《Improving Language Understanding by Generative Pre-Training》中提出的生成式预训练语言模型。该模型的核心思想:...原创 2021-08-06 00:58:49 · 13459 阅读 · 2 评论 -
ELMO模型
ELMoPaper: https://arxiv.org/pdf/1802.05365.pdf《Deep Contextualized Word Representations》是来自华盛顿大学的一篇论文,该论文在NAACL上获得了最佳论文。论文大致内容介绍了一种新的词向量表征可以解决词语义特征和语境特征。向量是在大规模语料通过bidirectional language model学习到的。elmo模型在各项nlp下游任务中都表现得良好。暴露预训练的深层内部是至关重要的,允许下游模型混合不原创 2021-07-26 18:09:09 · 915 阅读 · 0 评论 -
Transformer代码实战
Transformer代码实战翻译 2021-07-22 00:36:19 · 2006 阅读 · 0 评论 -
Transformer 与 Attention的一些Trick
Transformer 与 Attention的一些Trick位置编码单向掩码层归一化前置 欢迎关注公众号:转载 2021-07-20 23:38:21 · 1340 阅读 · 0 评论
分享