- 博客(7)
- 资源 (8)
- 问答 (1)
- 收藏
- 关注
原创 Deepseek大模型解决自然人提问的流程是什么
用户通过文本输入问题或指令。对输入文本进行分词(Tokenization),将文本拆分为模型可处理的单元(如单词或子词)。添加特殊标记(如开始标记、结束标记)以帮助模型理解输入的结构。将文本转换为模型可处理的数值形式(如词嵌入或 Token ID)。模型通过自注意力机制(Self-Attention)分析输入文本的上下文关系,理解问题的语义和意图。对于多轮对话,模型会结合历史对话内容,保持上下文一致性。模型从其训练数据中检索相关知识(如事实、逻辑规则、语言模式等)。
2025-02-25 19:00:48
656
原创 大模型的每个输入词(Token)会被映射到一个初始的高维向量(如 768 维或 1024 维),每个维度都有物理意义吗
每个词(Token)会被分配一个初始的高维向量(如 768 维或 1024 维),每个维度都有物理意义吗
2025-02-21 16:56:51
1030
原创 大模型的内部知识库是一种什么形态存在
模型的知识是基于训练数据的,无法自动更新。的知识表示形式,被编码在高维向量空间,它的存在形态和运作方式与传统数据库有本质区别。每个参数(权重)并不直接对应某个具体的知识,而是通过大量参数的组合来表示复杂的语义和关系。在训练过程中,模型通过优化目标(如语言建模目标)逐步调整参数,从而将知识编码到神经网络中。当用户提问时,模型通过其参数中编码的知识生成回答,而不是从外部数据库中检索数据。模型的知识并非以结构化数据(如表格、键值对)的形式存储,而是通过。模型的知识是隐式的,无法直接查看或编辑。
2025-02-21 16:51:57
755
原创 大模型的内部知识是如何被编码在高维向量空间
嵌入是将离散的符号(如单词、短语、概念)映射到连续的高维向量空间(通常几百到几千维)的过程。例如,单词“猫”可能被映射为类似。
2025-02-21 16:50:37
761
原创 Deepseek到底强在什么地方?
找了Deepseek和Qwen,Llama,Claude,GPT的综合能力对比表,除了红色部分Claude和GPT-4o没对外官宣,其余数据均来源Deepseek官网数据,为了便于快速理解,对能力测试项进行了中引文标注和英文缩写解释。Dense(密集)Dense(密集)175B+200B+175B+200B+
2025-02-18 16:41:03
1648
原创 概率密度函数
似然函数:抛硬币出现正面的概率为a,反面的概率为1-a,但这个a是个未知的数,因为硬币可以无限的抛下去,a的值在抛硬币事件未结束前是未知的。但是我们可以抛了5次,分别为:正反正反正,5次事件的结果组合已经出现了,这个出现我们可以固执的认为是概率之神给我们的暗示,也就是说,这5次事件组合出现这个结果的概率是最大值,他就在暗示我们抛硬币的结果概率。L(a)=f(正)*f(反)*f(正)*f(反)*f(正)=a*(1-a)*a*(1-a)*a=(1-a)^2*a^3,取得最大值时a=3/5。
2024-06-03 21:31:55
399
Lingo5软件及其使用技巧
2010-05-19
大量数据计算在程序中还是存储过程
2015-06-11
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅