LLM paper

zclfe

已于 2024-07-25 11:38:02 修改

阅读量44

点赞数

文章标签：深度学习人工智能自然语言处理

于 2023-10-12 20:53:45 首次发布

本文链接：https://blog.youkuaiyun.com/weixin_43845649/article/details/133789296

版权

FreshLLMs: Refreshing Large Language Models with Search Engine Augmentation

让LLM回答最新的问题。
做法是搜索相关内容，按时间排序，并根据搜索结果回答。

COMPRESSING LLMS:THE TRUTH IS RARELY PURE AND NEVER SIMPLE

pruning methods suffer performance degradation

RECOMP:IMPROVING RETRIEVAL-AUGMENTED LMS WITH COMPRESSION AND SELECTIVE AUGMENTATION

compressing retrieved documents to save the words.
one is extractive compressor; abstractive compressor
在这里插入图片描述

Controllable Natural Language Generation with Contrastive Prefixes

用前缀学习attribute，同时对比地学习，使得可以用前缀控制生成的内容。
在这里插入图片描述

INSTRUCT RETRO:INSTRUCTION TUNING POST RETRIEVAL-AUGMENTED PRETRAINING

在这里插入图片描述

Retrieve Anything To Augment Large Language Models

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

zclfe

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

【LLM】sft和pretrain数据处理和筛选方法

发现问题，并解决问题，批判性思维

10-29

8511

# note - 痛点：训练垂直领域模型，sft数据和增量pretrain数据质量把控很重要 - 当数据不够时，通过self-instruct等方法造多样化的数据 - 当数据很多时，需要清洗/筛选出高质量数据 @[toc] # 一、sft数据的筛选策略内容概要： - 构造sft数据 - 评估sft数据质量和数量 - 自动化筛选高质量sft数据 ## 1.1 使用self-instruct构造sft数据论文：《Self-Instruct: Aligning Language Model wit

LLM - 理解主流大模型 LLM 都使用 Decoder Only 架构的原因 (总结8点)

AGI

08-05

1163

Decoder Only 模式泛化性更好的理论原因包括：训练难度更大、具有隐式的位置编码能力、上下文学习支持 Few-Shot、注意力矩阵是满秩的、参数更少推理更快、KV-Cache、支持 Pipeline Parallel、实验支持。LLM 主流都会使用 Decoder Only 架构，而 Encoder-Decoder、PrefixLM 等混合训练方式，相对较小模型更加合适。

参与评论您还未登录，请先登录后发表或查看评论

LLM paper note

dragonchow123的专栏

07-01

217

LLM学习记录

大模型LLM相关 Paper Reading

weixin_45951642的博客

03-15

963

大模型LLM微调方法paper汇总！

2401_82426425的博客

01-08

1673

本文对高效LLMs研究的发展进行了系统而全面的回顾，并将文献整理成由三个主要类别组成的分类法，从模型中心、数据中心和框架中心的角度涵盖了不同但相互关联的高效LLMs主题，并且从以模型为中心和以数据为中心的角度，回顾了LLMs的算法层面和系统层面的高效技术。本文分析了训练数据因素对对话模型性能的影响，包括数量、质量和语言分布，文中使用1000个样本评估集评估了各种模型，涵盖9个真实场景，目的是通过定量分析提供有价值的见解，推进开源聊天模型的发展，并且还扩展了LLaMA的词汇表，进行了二次预训练。

EMNLP 2023 | LLM工业界快速落地之PromptMix: 一种有效的混合数据增强策略将LLM能力迁移到小模型

hxshine的博客

03-06

1149

这篇论文介绍了PromptMix，一种新颖的类边界数据增强方法，用于在训练数据有限的情况下提高大型语言模型的文本分类效果。该方法通过生成挑战性文本并结合Relabeling策略，生成类别精确的难样本，以便更好地迁移大型模型（如GPT3.5-turbo）的知识到更小、更经济高效的分类器（如DistilBERT和BERTbase）。论文的实验表明，PromptMix在2-shot场景中的效果优于多个5-shot数据增强方法。

大模型LLM微调技术方法paper汇总！

aolan123的博客

07-18

1072

随着AI技术的发展，大型预训练模型在图像识别、自然语言处理等领域表现出色，不过为了使其适应特定的任务和数据集，这些模型通常需要针对特定应用进行微调。今天就特意整理了12篇大模型LLM微调技术方法paper分享给大家，提供了对于LLM在不同场景下进行高效微调的深入分析、实践经验和技术突破，大家可以学习一下！

【论文阅读】Jailbroken: How Does LLM Safety Training Fail?

qq_45822394的博客

12-12

1648

随着大模型的应用越来越广泛，有一些人就想利用大模型去获得一些有害信息。所以现在的大语言模型在预训练之后都会经过安全训练阶段，这个阶段会设置一些安全措施，比如过滤和对齐等，让模型的输出符合人类价值观，训练它拒绝提供有害信息的请求，如图1这种有害问题，它就会拒绝回答.图1越狱攻击就是通过设计Prompt ，绕过大模型开发者为其设置的安全和审核机制，利用大模型对输入提示的敏感性和容易受到引导的特性，诱导大模型生成不合规的、本应被屏蔽的输出。

探索知识图谱与大语言模型的融合：KG-LLM-Papers

gitblog_00084的博客

04-19

793

探索知识图谱与大语言模型的融合：KG-LLM-Papers KG-LLM-Papers[Paper List] Papers integrating knowledge graphs (KGs) and large language models (LLMs)项目地址:https://gitcode.com/gh_mirrors/kg/KG-LLM-Papers 该项目【<>】是一个...

LLMs之Safety：《A Comprehensive Survey in LLM(-Agent) Full Stack Safety：Data, Training and Deployment》翻

头部AI社区如有邀博主AI主题演讲请私信—心比天高，仗剑走天涯，保持热爱，奔赴向梦想！低调，专注，谦虚，自律，反思，成长，还算比较正能量的博主，公益免费传播…内心特别想在AI界做出一些可以推进历史进程影响力的技术(兴趣使然，有点小情怀，也有点使命感呀

04-23

1679

LLMs之Safety：《A Comprehensive Survey in LLM(-Agent) Full Stack Safety：Data, Training and Deployment》翻译与解读目录《A Comprehensive Survey in LLM(-Agent) Full Stack Safety: Data, Training and Deployment》翻译与解读 Abstract 1、Introdu

LLM 研究方向(三): LLM Hallucinations--RAG

天狼啸月1990的博客

07-10

1187

，是一种结合了信息检索 retrieval和生成技术generation的nlp方法。概念：LLM hallucinations 幻觉指的是LLM生成的内容中。这些幻觉内容看起来像是真实和连贯的，但实际上是错误的或没有依据的。提升数据质量、引入验证机制、加强监督学习、使用组合模型、后处理检查。通过这些方法，可以有效减少幻觉，提高生成内容的准确性和可靠性。包含虚构、不准确或误导的信息。RAG方法(检索增强生成)信息检索retireval。得到的有用信息作为答案辅助。1.4.4 使用组合模型。

LLM推理：增强个性化推荐系统

AI_Conf的博客

08-07

994

大模型(LLM)是一种人工智能模型，旨在理解和生成人类语言。它们在大量的文本数据上进行训练，可以执行广泛的任务，包括文本总结、翻译、情感分析等等。LLM的特点是规模庞大，包含数十亿的参数，帮助它们学习语言数据中的复杂模式。这些模型通常基于深度学习架构，如转化器，这有助于它们在各种NLP任务上取得令人印象深刻的表现。

Python实现P-PSO优化算法优化循环神经网络LSTM分类模型项目实战

最新发布

张陈亚的博客

05-31

892

【摘要】本项目提出一种基于改进粒子群算法(P-PSO)优化LSTM神经网络的分类模型。针对传统LSTM训练中易陷入局部最优等问题，采用带压缩因子的PSO算法优化网络初始参数，提升模型性能。实验使用包含10个特征和2000条样本的数据集，经过数据预处理和探索性分析后，构建P-PSO-LSTM模型。结果表明，优化后的模型在测试集上准确率达95%，F1分数为0.9533，显著优于基准模型。该方法有效解决了LSTM训练过程中的参数敏感问题，为序列分类任务提供了可靠解决方案。完整数据和代码可通过文末方式获取。

深度学习教学目录

FJN110的博客

05-30

631

深度学习课程：面向计算机视觉、深度学习小白，本产品包含但不限于以下文档一、环境配置详解，全平台支持提供Windows、Linux、树莓派、瑞芯微板（RK）等多平台下的PyTorch与TensorFlow环境配置教程，图文并茂，细致入微，确保每一位学习者都能顺利完成环境搭建。同时，文档中还详细讲解了服务器部署、AI大模型运行、Docker容器配置、VNC远程连接等高级内容，适用于科研和生产环境。

【专题】深度学习期末复习资料（题库）

Pqf18064375973的博客

05-30

461

深度学习期末复习资料（题库）

正则化-深度学习

FJN110的博客

05-30

124

正则化参数（通常记作 λ\lambdaλ 或 α\alphaα）在机器学习中的作用是通过控制模型的复杂度来防止过拟合。

基于多尺度卷积和扩张卷积-LSTM的多变量时间序列预测

专注AI大模型,软件混淆,授权

05-29

158

本文提出了一种结合多尺度卷积、扩张卷积和LSTM的混合神经网络模型，用于多变量时间序列预测。该模型通过多尺度卷积捕获不同时间尺度的局部特征，利用扩张卷积扩大感受野捕捉长期依赖，并借助LSTM处理序列数据的时序关系。文章详细介绍了模型架构、关键技术原理，并提供了完整的PyTorch实现代码，包括数据预处理、模型定义、训练过程和评估方法。实验结果表明，该模型能有效提取时空特征，在金融、气象、交通等领域具有广泛应用前景。代码实现完整且注释详尽，便于读者理解和使用。

深度学习实战110-基于深度学习的工业系统故障诊断技术研究（卷积网络+注意力机制模型）

微学AI的博客

05-30

319

工业系统故障诊断是确保现代工业设备安全稳定运行的关键技术环节。随着工业自动化和智能化水平的不断提高，传统故障诊断方法在应对日益复杂、多变的工业环境时显得力不从心。基于深度学习的故障诊断技术因其强大的特征学习能力和自适应性，已成为当前研究的热点和工业应用的前沿。本文将探讨一种融合卷积神经网络(CNN)和注意力机制的深度学习模型，用于工业系统故障诊断，包括项目背景、系统架构、技术原理、数据样例以及相关代码实现。

基于CNN的OFDM-IM信号检测系统设计与实现

huanghm88的专栏

05-30

290

基于CNN的OFDM-IM信号检测系统摘要本文提出了一种基于卷积神经网络(CNN)的正交频分复用索引调制(OFDM-IM)信号检测方法。通过构建包含多层卷积、批归一化和ReLU激活的CNN模型，实现了对OFDM-IM信号的端到端检测。系统采用双通道输入处理信号的实部和虚部，并在不同信噪比(SNR)条件下进行性能评估。实验结果表明，CNN检测器在AWGN和瑞利衰落信道中均能有效工作，其误码率性能接近传统ML检测器，同时显著降低了计算复杂度。该方法为5G及未来无线通信系统提供了一种高效可靠的信号检测解决方案。

LLM代码解析

03-14

### LLM（大型语言模型）代码实现与解析 #### 使用Transformer架构构建LLM的核心组件大型语言模型通常基于Transformer架构，该架构通过自注意力机制捕获输入序列中的长期依赖关系[^2]。以下是使用Python和Hugging Face库来加载并运行预训练的LLM的一个简单示例： ```python from transformers import AutoTokenizer, AutoModelForCausalLM # 加载预训练的语言模型及其分词器 tokenizer = AutoTokenizer.from_pretrained("gpt2") # 替换为其他模型名称如"gpt3" model = AutoModelForCausalLM.from_pretrained("gpt2") # 输入文本 input_text = "The capital of France is" # 将文本转换为模型可接受的格式 inputs = tokenizer(input_text, return_tensors="pt") # 获取模型生成的结果 outputs = model.generate(**inputs, max_length=50) # 转换回人类可读的形式 generated_text = tokenizer.decode(outputs[0], skip_special_tokens=True) print(generated_text) ``` 上述代码展示了如何利用现有的预训练模型完成简单的文本补全任务。`AutoTokenizer`负责将原始字符串转化为适合神经网络处理的张量形式；而`AutoModelForCausalLM`则是用于因果语言建模的具体类。 #### 微调LLM以适配特定任务尽管大规模预训练赋予了LLM强大的泛化能力，但在实际应用中往往还需要针对具体场景进一步调整参数设置。这一步骤被称为微调(fine-tuning)，其目的是让模型更好地服务于目标领域内的需求[^3]。下面是一个关于情感分类的例子： ```python import torch from datasets import load_dataset from transformers import Trainer, TrainingArguments, BertForSequenceClassification, BertTokenizerFast # 数据准备阶段 dataset = load_dataset('imdb') tokenizer = BertTokenizerFast.from_pretrained('bert-base-uncased') def preprocess_function(examples): return tokenizer(examples['text'], truncation=True, padding='max_length', max_length=128) encoded_dataset = dataset.map(preprocess_function, batched=True) # 定义模型结构以及优化策略 model = BertForSequenceClassification.from_pretrained('bert-base-uncased', num_labels=2) training_args = TrainingArguments( output_dir='./results', evaluation_strategy="epoch", per_device_train_batch_size=16, per_device_eval_batch_size=64, num_train_epochs=3, weight_decay=0.01, ) trainer = Trainer( model=model, args=training_args, train_dataset=encoded_dataset["train"], eval_dataset=encoded_dataset["test"] ) # 开始训练过程 trainer.train() ``` 这段脚本首先下载IMDB影评数据集，并对其进行必要的前处理操作以便于后续计算。接着实例化了一个二元分类版本的BERT模型，并配置了一些超参控制实验条件。最后借助Trainer API简化整个迭代流程管理。 #### 利用LLM进行高级文档分析除了基本的文字创作外，现代LLM还擅长解决更加复杂的业务挑战——比如从非结构化的PDF文件里抽取关键信息。相比传统的正则表达式方法，这种方法具备更强健性和灵活性[^4]。考虑这样一个情景：我们需要定位某篇学术文章里的作者姓名列表。可以采用如下方式实现自动化提取功能： ```python from langchain.document_loaders import PyPDFLoader from langchain.chains.summarize import load_summarizer_chain from langchain.prompts.prompt import PromptTemplate from langchain.llms.openai import OpenAI loader = PyPDFLoader("./example_paper.pdf") pages = loader.load_and_split() llm = OpenAI(model_name="text-davinci-003", temperature=0) prompt_template = """Extract the list of authors from this paper. Paper excerpt: {context} Author names:""" PROMPT = PromptTemplate(template=prompt_template, input_variables=["context"]) summarization_chain = load_summarizer_chain(llm=llm, chain_type="map_reduce", prompt=PROMPT) output_summary = summarization_chain(pages[:2]) # 只取前两页作为示范用途 print(output_summary['output_text']) ``` 这里我们引入LangChain框架辅助完成多步逻辑串联工作流设计。它先通过PyPDFLoader模块把源材料拆分成单独页面对象集合；再定制专用Prompt指导OpenAI服务专注于寻找所需条目而非概括全文内容摘要。 ---