xiaosc-优快云博客

用户通过文本输入问题或指令。对输入文本进行分词（Tokenization），将文本拆分为模型可处理的单元（如单词或子词）。添加特殊标记（如开始标记、结束标记）以帮助模型理解输入的结构。将文本转换为模型可处理的数值形式（如词嵌入或 Token ID）。模型通过自注意力机制（Self-Attention）分析输入文本的上下文关系，理解问题的语义和意图。对于多轮对话，模型会结合历史对话内容，保持上下文一致性。模型从其训练数据中检索相关知识（如事实、逻辑规则、语言模式等）。

2025-02-25 19:00:48 656

原创大模型的每个输入词（Token）会被映射到一个初始的高维向量（如 768 维或 1024 维），每个维度都有物理意义吗

每个词（Token）会被分配一个初始的高维向量（如 768 维或 1024 维），每个维度都有物理意义吗

2025-02-21 16:56:51 1030

原创大模型的内部知识库是一种什么形态存在

模型的知识是基于训练数据的，无法自动更新。的知识表示形式，被编码在高维向量空间，它的存在形态和运作方式与传统数据库有本质区别。每个参数（权重）并不直接对应某个具体的知识，而是通过大量参数的组合来表示复杂的语义和关系。在训练过程中，模型通过优化目标（如语言建模目标）逐步调整参数，从而将知识编码到神经网络中。当用户提问时，模型通过其参数中编码的知识生成回答，而不是从外部数据库中检索数据。模型的知识并非以结构化数据（如表格、键值对）的形式存储，而是通过。模型的知识是隐式的，无法直接查看或编辑。

2025-02-21 16:51:57 755

原创大模型的内部知识是如何被编码在高维向量空间

嵌入是将离散的符号（如单词、短语、概念）映射到连续的高维向量空间（通常几百到几千维）的过程。例如，单词“猫”可能被映射为类似。

2025-02-21 16:50:37 761

原创 Deepseek到底强在什么地方？

找了Deepseek和Qwen，Llama,Claude，GPT的综合能力对比表，除了红色部分Claude和GPT-4o没对外官宣，其余数据均来源Deepseek官网数据，为了便于快速理解，对能力测试项进行了中引文标注和英文缩写解释。Dense（密集）Dense（密集）175B+200B+175B+200B+

2025-02-18 16:41:03 1648

原创概率密度函数

似然函数：抛硬币出现正面的概率为a，反面的概率为1-a，但这个a是个未知的数，因为硬币可以无限的抛下去，a的值在抛硬币事件未结束前是未知的。但是我们可以抛了5次，分别为：正反正反正，5次事件的结果组合已经出现了，这个出现我们可以固执的认为是概率之神给我们的暗示，也就是说，这5次事件组合出现这个结果的概率是最大值，他就在暗示我们抛硬币的结果概率。L(a)=f(正)*f(反)*f(正)*f(反)*f(正)=a*(1-a)*a*(1-a)*a=(1-a)^2*a^3，取得最大值时a=3/5。

2024-06-03 21:31:55 399