【Datawhale AI夏令营-大模型应用全栈开发】 Task 1 笔记

原创已于 2024-08-11 23:48:36 修改 · 533 阅读

9 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #笔记

于 2024-08-11 23:45:00 首次发布

task 1 学习手册

一、什么是大模型

大模型是基于语言模型的演化，特别是大型预训练模型，其核心目标是提高语言理解和生成的能力。模型的演变历程包括：

统计语言模型（SLM）：利用马尔可夫假设，通过𝑛元模型进行语言建模。
神经语言模型（NLM）：基于神经网络，如循环神经网络（RNN），通过学习上下文相关的词表示（词嵌入）来建模。
预训练语言模型（PLM）：使用大量无标注数据进行预训练，再通过微调适应具体任务（如BERT、GPT系列）。
大语言模型（LLM）：强调通过扩展法则提升模型性能，展现出涌现能力（如GPT-3、ChatGPT）。
（涌现能力通常被定义为一种在大模型中出现，而在小模型中不存在的能力。这种能力的出现往往伴随着模型规模的显著增加，导致模型在特定任务上的性能发生质变。例如，在一些知识密集型任务上，当模型达到一定规模时，它能够记住并学会更多的知识，从而在这些任务上表现出色。）

二、大模型的构建过程

大模型的构建通常分为三个阶段：

预训练：使用海量数据进行初始学习，建立良好的模型参数起点。数据质量和多样性至关重要，同时需要强大的计算资源进行训练。
有监督微调：在预训练基础上，通过成对的输入和输出数据，训练模型以提高在特定任务上的表现。这一过程显著减少了所需数据量，增强了模型的指令遵循能力。
基于人类反馈的强化学习对齐（RLHF）：通过奖励模型和专家偏好排序，使得模型的输出与人类的期望和价值观对齐，提升实际应用效果。

三、开源与闭源大模型

大模型的开发与维护需要巨大的计算能力和数据支持，形成了两大阵营：

开源组织：如Meta AI、浪潮信息，致力于促进学术交流和技术创新，提供开源模型和数据集。
闭源公司：如OpenAI、百度，利用闭源模型作为商业核心，提供专有服务，维护商业优势。

四、大模型时代的开发范式

在大模型应用开发中，以下策略至关重要：

Prompt工程：通过精心设计的提示（Prompt）直接调教模型，使用上下文学习和思维链提示提高模型的适应性和解析能力。
Embedding辅助：将知识转为Embedding向量，存入知识库，通过检索提供上下文知识，增强模型的回答准确性。
参数高效微调：通过轻量化的微调方法，训练少量参数，达到与全量微调相似的效果，提升模型在特定任务上的表现。

Prompt工程

Prompt工程（Prompt Engineering）是指通过精心构造提示（Prompt），直接调教大语言模型（LLM），以解决实际问题的技术和方法。Prompt工程的目标是通过合理设计提示词，引导大模型生成符合预期的输出。这种方法不需要额外的模型训练，只需在模型输入时通过不同的提示文本调整模型的行为。

提示词设计： Prompt工程的关键在于设计有效的提示词或句子，确保大模型能够理解任务要求并生成理想的结果。例如，设计问题的方式、提供背景信息、要求模型遵循特定格式等都属于提示词设计的范畴。
上下文学习（In-Context Learning, ICL）： 一种通过在提示文本中融入任务说明和示例来引导模型的学习方式。通过给出几个示例，模型可以根据这些上下文示例来推断并完成新的任务，而不需要专门为该任务重新训练模型。
思维链提示（Chain-of-Thought, CoT）： 这种方法通过在提示中加入连贯的逻辑推理链条，帮助模型在解决复杂问题时分解问题、逐步推理，最终生成更加准确和合理的回答。

Embedding辅助

Embedding辅助是指在使用大语言模型（LLM）时，通过Embedding技术来增强模型的理解、检索和生成能力的辅助方法。Embedding 是将高维数据（如文字、图像等）映射到低维连续向量空间的过程，使得在这个空间中，相似的内容更接近，从而可以更有效地进行相似性计算和相关性分析。

Embedding： 一种将离散对象（如单词、句子、文档）映射到连续向量空间的表示方法。常见的文本Embedding方法包括Word2Vec、GloVe、BERT等。通过Embedding，语义相似的单词或句子在向量空间中会更加接近。
语义相似性计算： 在向量空间中，可以通过计算不同对象（如单词或句子）之间的向量距离（如余弦相似度），来评估它们的语义相似性。例如，"cat"和"dog"的Embedding向量在语义空间中可能距离较近，因为它们都是动物。
检索与匹配： Embedding辅助通常用于信息检索领域，通过将查询和文档都转换为向量，然后在向量空间中找到最接近的向量，从而实现更高效的匹配和检索。