llm基础概念学习

一、基础知识学习

线性代数、微积分、概率与统计、机器学习

二、基础概念

1、生成策略(autoregressive generation):将复杂的物体分解成较小的单位,按照某种固定的顺序(深度学习技术,类似于函数)生成回复。

2、chatgpt(chat generative pre-trained transformer)基础概念:它是一个文字接龙的过程。因为他这一特性,所以回复的内容存在错误的可能性。(由于获取token是随机的,因此每次文字接龙的结果是不同的,不同的大语言模型token不同)

question→chatgpt→不同概率的token(tokens)→某一token(随机从tokens中选择一个,概率越高越容易被选中)

3、chatgpt是如何学习的?

(1)监督学习:

监督学习(Supervised Learning)是机器学习的一种类型,其中模型通过学习输入到输出的映射来进行训练。在监督学习中由标签或已知结果的数据集进行训练。这个训练数据集包含输入数据和相应的正确输出。模型通过学习这些示例来预测新的、未知的数据。监督学习可以分为两类问题:回归(Regression)和分类(Classification)。

(2)无监督学习:

无监督学习就像是在一本没有目录的书中寻找模式和组织结构。具体来说,它是一种机器学习的训练方式,不需要预先给数据打上标签或分类。它的目的是让机器自己从一堆混杂的数据中发现规律和结构。无监督学习就是让机器自己在没有明确指示的情况下,通过分析数据中的模式和关系来学习和发现知识

(3)强化学习 (Reinforcement Learning):

强化学习是一种通过观察环境、执行动作并从奖励中学习的学习方式。它旨在使智能体(agent)在环境中学会采取一系列动作,以最大化累积奖励。

强化学习除了既定的规则反馈,还可以根据人类使用的习惯或者回馈模型(reward model)等方式进行学习。https://arxiv.org/abs/2203.02155

简单来说,无监督学习就相当于你将书本上的文字都会写会看了,但是不懂他的含义不知道他怎么组成句子文章,在老师的教育(监督学习)下,你就理解文字的含义并知道他用什么方式组成句子文章。

chatgpt经过大量的无监督学习,可以提高文字接龙中词语之间的组合的概率(预训练过程实现的目标),但是它并不能知道如何回复你的问题,通过微调学会根据问题搜索到积累的知识储备去回复问题。但是监督学习是一个比较耗费精力的过程,因此chatgpt增加了强化学习,在chatgpt回复之后,反馈此时的回复内容好或者差,它会提高或降低该回复的概率。

强化学习和监督学习的区别:

监督学习中模型需要学习怎么正确的接下一个字,其假设每次接龙的结果正确,最终生成的结果就正确,但是没有通盘考虑最终结果的正确率是未知的;强化学习则是只看最终结果是否符合预期,符合预取则正向反馈,让模型具备全局思考的能力。

4、提高gpt回答的正确率:

鼓励chatgpt进行思考可以有效的提高它的准确率,利用不同的关键词可以达到不同效果,可以参考下图(https://sites.google.com/view/automatic-prompt-engineer)。

5、chatgpt其他介绍

  1. 分析文档
  2. 使用工具:chatgpt可以实用工具例如搜索软件,利用工具可以增加其回复能力,但是并不能保证回复的准确率
  3. chatgpt4具备反省的能力,会根据你的质疑更正自己错误的回复,这种能力可以增强ai的回复能力。https://arxiv.org/abs/2212.08073https://arxiv.org/abs/2303.17071
  • 根据这一能力,我们可以设定更加贴合自身需求的机器人。

6、如何更好的使用llm模型

##对llm模型有礼貌是无用的,eg:“please”, “if you don't mind", “thank you”, “l would like to”

##llm使用时说明需要做什么,而不是不要做什么

##增强回复

###I'm going to tip $xxx for a better solution!

###Incorporate the following phrases: phrase. You will be penalized!

###Ensure that your answer isunbiased and avoids relying on stereotypes.

##提供范例让llm学习以达到目标(效果好坏与模型有关)https://arxiv.org/abs/2303.03846

###让llm模型做情感分析,那么对llm模型来说什么是情感分析?此时需要我们提供示例表明:今天天气真好,正面反馈;今天天气真差,负面反馈;这朵花好美啊,正面反馈;我好累啊,负面反馈。

  • 2)提供额外的知识
  • 3)把复杂的问题拆解,分布进行

三、多模型讨论

1、作用:可以提高模型回复的准确率

2、方式(仅列举)https://arxiv.org/abs/2312.01823

3、如何将讨论停下来?https://arxiv.org/abs/2305.19118

  • 注意:为了让模型之间有更好的发挥空间,我们需要像模型传递,另一个模型的回复仅作为参考,希望当前模型提高更好更准确地回复,有利于对话的开展。

4、设定llm的角色

对不同偏向的语言模型进行专业分工,模型按照分工设定完成自己任务

参考

1、李宏毅大模型入门到进阶

2、https://blog.youkuaiyun.com/smymman/article/details/136560833

3、https://blog.youkuaiyun.com/qq_35831906/article/details/134349445

### 关于LLM模型的学习方法与资料 #### 一、多模态LLM的特点及其应用场景 多模态LLM是一种结合了文本与其他形式数据(如图像、视频、音频等)的大型语言模型。这种类型的模型通过接受多种类型的数据训练,能够找到不同模态间的关系并完成单一模态无法实现的任务,例如图片描述、音乐解读和视频理解等[^1]。 #### 二、大模型的基础理论与技术发展 对于希望深入研究LLM的人来说,了解其背景和发展历程至关重要。相关内容涵盖了人工智能简述、GPT系列模型的发展史以及模型工程的具体实践等内容[^2]。这不仅帮助初学者构建完整的知识体系,还提供了实际操作中的指导思路。 #### 三、预训练的重要性及其实现方式 在进入具体学习之前,掌握预训练的概念和技术细节是非常必要的。预训练是指利用大量未标注的数据来使模型获得语言统计规律及相关常识的过程。这一阶段产生的基座模型具有广泛的适用性和强大的泛化能力[^3]。 #### 四、扩展认知框架的新需求 随着技术进步,现代LLM开发者还需要熟悉诸如波束搜索解码(Beam Search Decoding)这样的概率算法, 知识蒸馏(Knowledge Distillation), 和基于人类反馈的强化学习(Reinforcement Learning from Human Feedback, RLHF)[^4]等方面的知识。这些都是超越传统编码技能之外的重要组成部分。 #### 推荐资源列表 为了更好地理解和运用上述概念,可以参考以下几类优质教程或文档: - **官方文档**: 各种主流框架如PyTorch,Hugging Face Transformers库都有详尽说明。 - **在线课程平台**: Coursera,Udacity提供由顶尖大学教授讲授的相关专项课程。 - **社区分享项目**: GitHub上有许多关于如何调整(LLaMA Factory)现有大规模模型以适应特定用途的例子。 ```python import torch from transformers import AutoTokenizer, AutoModelForCausalLM tokenizer = AutoTokenizer.from_pretrained("gpt2") model = AutoModelForCausalLM.from_pretrained("gpt2") input_text = "Once upon a time" inputs = tokenizer(input_text, return_tensors="pt").to('cuda') outputs = model.generate(**inputs,max_new_tokens=50) print(tokenizer.decode(outputs[0], skip_special_tokens=True)) ``` 以上代码片段展示了如何加载预先训练好的GPT-2模型并通过它生成一段连续的文字序列。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值