
大模型
文章平均质量分 65
记录大模型学习过程
Mia@
自律者得自由
展开
-
RLHF实现专业领域llm微调
构建Prompt数据集。原创 2025-02-17 16:59:29 · 210 阅读 · 0 评论 -
大模型微调与对齐-RLHF理论(一)
利用收集到的人类反馈数据指导大模型微调,即模型对齐【何为对齐?】让模型听人话【如何让大模型对齐?是大模型对齐的一种具体方法具体讲就是通过设计合适的提示(Prompt)来引导模型的行为。Prompt 是给模型的输入指令,通过对提示的精心设计,可以让模型更准确地理解人类的需求,并按照期望的方式回答问题或执行任务。要点:明确、灵活、引导性。原创 2025-02-14 13:16:59 · 869 阅读 · 0 评论 -
关于Agent
Agent的核心逻辑是让LLM根据动态变化的环境信息,选择执行具体的行动,并反过来影响环境,通过多轮迭代重复执行上述步骤,直到完成目标。总结就是:感知§ — 规划§ — 行动(A)Agent(智能体)指能感知环境并采取相应行动的智能体。原创 2024-12-30 09:39:07 · 198 阅读 · 0 评论 -
吴恩达--LangChain
这里举例子:一个人的日程安排和一些闲聊,当tokens很大时,可以保留下所有的对话信息,当token减小时,使用SummayBufferMemory对“废话”做摘要。这里举例字让ai把一段粗鲁的非英语翻译成有礼貌的英语,指定了用语言的style和提示词(使用一般的OpenAI)下面使用LangChain,需要导入ChatOpenAI(LangChain对ChatGPT的抽象访问API)之前输出的是str类型的,现在是dict类型。需要pipopenai。原创 2024-12-27 16:42:13 · 208 阅读 · 0 评论 -
DeepSeekv3 Build Anything
DeepSeekv3参数量6710以个,但在活跃是每个token的参数仅仅为370亿个,在14.8万亿个token的训练集上训练(100万个token约为75万词),预训练阶段仅需266.8万H800个GPU小时,后续训练阶段也仅需10万GPU小时。【约2个月完成训练,550万美元】传统的Transformer模型(BERT、GPT等)在处理长序列、多模态数据或推理复杂任务时计算效率低,上下文捕捉不足【因为它们在当输入的Prompt非常长时会在中途随机遗忘一些内容】原创 2025-01-05 20:59:18 · 737 阅读 · 0 评论