LLM
文章平均质量分 89
迪三
聚焦AIGC应用技术 (Email:disanda@foxmail.com)
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Llama 2 技术概览
llama2公开 7B、13B、70B;34B 模型未公开。训练流程分三步:1.预训练 Llama 2(用公开数据)2.监督微调(SFT) 得到 Llama 2-Chat 初始版本3.RLHF 多轮迭代优化(拒绝采样 + PPO),RLHF 过程中 不断更新奖励模型,确保其与模型能力保持一致。原创 2025-11-27 00:00:28 · 1048 阅读 · 0 评论 -
GPT-0: Attention+Transformer+可视化
本文介绍GPT组件: Attention+Transformer,及其可视化原文 《Visualizing Attention in Transformer-Based Language Representation Models》, 2019。原创 2025-10-30 20:48:57 · 965 阅读 · 0 评论 -
GPT-2 技术报告2
Lead-3: 直接取新闻原文的前 3 句作为摘要。在许多新闻类数据集(例如 CNN/DailyMail, Newsroom, XSum)中,记者写作的新闻报道往往在开头几句就概括了主要事实与要点(即“倒金字塔结构”)。Lead-3 往往能在不学习的情况下得到非常强的 ROUGE 分数;成为评估 自动摘要模型是否真的“理解”语义 的强基线。ODQA(Open-domain Question Answering) :一种问答系统任务,要求模型在没有固定上下文的情况下回答。原创 2025-10-29 21:30:41 · 723 阅读 · 0 评论 -
GPT-1 技术报告
Transformer架构优势明显:能处理长程依赖,提高迁移性能,优于LSTM。其有以下两点趋势:生成式(generative):预测文本序列,用无标签数据预训练。判别式(discriminative):直接预测标签,需要标注数据,用于微调。生成式预训练 (Pre-train)+ 判别式微调(Fine-tuning)是NLP任务的有效策略,可充分利用大量无标签文本。原创 2025-10-26 16:44:03 · 880 阅读 · 0 评论 -
GPT-2 技术报告
传统方法局限以往的 NLP 任务依赖于有监督学习和特定任务数据集。仅针对单一任务,模型的泛化和跨任务能力有限。NLP 任务如:问答(QA)、机器翻译、阅读理解、摘要生成等。GPT-2 的核心发现若在大规模通用语料(如 WebText)上预训练语言模型,它会自然地学会完成多种nlp任务,即使没有显式监督信号。模型容量与任务迁移效果呈 log-linear 增长规律,说明更大的模型更善于 zero-shot 学习。原创 2025-10-15 15:19:42 · 656 阅读 · 0 评论 -
视觉大模型:Qwen-VL 技术报告解读
Image Captioning:给定一张图片,生成英文描述。General VQA(视觉问答):给定图片+问题,生成答案。Text-oriented VQA:回答图像中与<文本相关>的问题,如识别图表、文档、书本或海报上的文字。原创 2025-09-23 22:10:45 · 888 阅读 · 0 评论 -
NLTK库: 数据集3-分类与标注语料(Categorized and Tagged Corpora)
用于主观性分析的数据集,这个语料库由 5000 条主观句子(subjective)和 5000 条客观句子(objective)组成,专门用于情感分析和主观性分类任务。来源于 Bo Pang 和 Lillian Lee 的研论文《A Sentimental Education: Sentiment Analysis Using Subjectivity Summarization Based on Minimum Cuts》(ACL 2004)。原创 2025-05-13 21:37:07 · 1466 阅读 · 0 评论 -
NLTK库: 数据集2-词汇资源(Lexical Resources)
类方法definition()获取一个包含20万多个标准英文单词的列表,用于英文处理、拼写检查、自然语言理解等任务(236736个词)。原创 2025-05-09 01:13:42 · 964 阅读 · 0 评论 -
NLTK库(1): 数据集-语料库(Corpus)
NLTK (Natural Language Toolkit) 是自然语言处理(NLP)任务的 Python 库,内置大量NLP数据集与计算包。NLP数据集也叫语料库 (Corpus), 若无特殊格式或标记,数据集通常来自txt等文本文件。本教程内容适用版本:涵盖NLP基本操作和大量语料(英文为主):这里以小说nltk.corpus.gutenberg的圣经(‘bible-kjv.txt’)为例:nltk.corpus 模块中包含了多种类型的语料库,可大致分为以下几类:用于自然语言处理中的分词、句法、语义、原创 2025-05-06 17:57:19 · 1323 阅读 · 0 评论 -
论文研读: LLaVA, 微调大模型以理解图像内容
LLaVA是视觉大模型,涉及主流大模型微调方法,包括:通过超大参数模型(GPT-4)生成<微调数据>(这里是图文跨模态数据)两阶段微调大模型(原文为Vicuna-7B,即llama2,相比GPT-4约小10倍)第一阶段实现<视觉-语言特征对齐>第二阶段将<图像融合进上下文>两阶段微调对应不同的 <数据集> 及 <微调数据结构>微调《数据集》来自通用大模型 (比如ChatGPT的格式化输出)。微调《中小规模的参数模型》 3B / 7B / 35B 以适配下游任务。原创 2025-04-17 15:23:55 · 1296 阅读 · 0 评论 -
自然语言基础2 BERT源码 & 大模型技术(attention/transformer/LLM) 如何处理各类NLP任务
本文以huggingface BERT模型为例,概述常见Transformer的结构,以及数据处理的过程和相关概念,这里一定要牢记attention论文中的那张图,bert主要是其中encoder部分的实现(其实也可以通过参数变为decoder部分)现在的transformer模型 (大模型LLM) 有很多了,包括GPTs, LLaMa, Moss等等,但作为初学者,4-5年前的GPT2和BERT相对会好上手一些,一方面可借此了解常见NLP任务,数据处理和模型基本结构等。原创 2023-06-28 17:37:05 · 1594 阅读 · 0 评论 -
自然语言基础3--IMDB下的 MLM (掩码模型) & Bert Fine-tuning (模型微调)
本文是Hugging Face 上 NLP的一篇代码教程,通过imdb数据集, Fine-tuning微调 Bert预训练模型。涉及关键词包括: MLM, Bert, Fine-tuning, IMDB, Huggingface Repo。原创 2023-07-09 15:48:59 · 1868 阅读 · 0 评论 -
自然语言基础1: 文本标记算法 (Tokenization Algorithm) : Byte-Pair Encoding (BPE) 和 WordPiece
BPE最初是用于文本压缩的算法,当前是最常见tokenizer的编码方法,用于 GPT (OpenAI) 和 Bert (Google) 的 Pre-training Model。原创 2023-07-05 16:10:41 · 1463 阅读 · 0 评论 -
Ubuntu cuda 10.2下调通ChatGLM-6B经验
比如 torch 1.12.1就可以适配cuda 10.2,代码如下。原创 2023-06-01 02:21:10 · 574 阅读 · 0 评论 -
自然语言处理_1_基本概念&WikiText数据集
WikiText数据集介绍,自然语言处理原创 2022-12-30 12:39:51 · 6822 阅读 · 0 评论
分享