
模型理论
文章平均质量分 53
Mia@
自律者得自由
展开
-
关于Agent
Agent的核心逻辑是让LLM根据动态变化的环境信息,选择执行具体的行动,并反过来影响环境,通过多轮迭代重复执行上述步骤,直到完成目标。总结就是:感知§ — 规划§ — 行动(A)Agent(智能体)指能感知环境并采取相应行动的智能体。原创 2024-12-30 09:39:07 · 198 阅读 · 0 评论 -
DeepSeekv3 Build Anything
DeepSeekv3参数量6710以个,但在活跃是每个token的参数仅仅为370亿个,在14.8万亿个token的训练集上训练(100万个token约为75万词),预训练阶段仅需266.8万H800个GPU小时,后续训练阶段也仅需10万GPU小时。【约2个月完成训练,550万美元】传统的Transformer模型(BERT、GPT等)在处理长序列、多模态数据或推理复杂任务时计算效率低,上下文捕捉不足【因为它们在当输入的Prompt非常长时会在中途随机遗忘一些内容】原创 2025-01-05 20:59:18 · 737 阅读 · 0 评论