自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(58)
  • 收藏
  • 关注

原创 Chapter3:语言模型基础 Part 8:动手实战——本地部署开源大模型

本文介绍了如何在本地私有化部署开源大语言模型,重点讲解了使用Hugging Face Transformers库加载和运行Qwen1.5-0.5B-Chat模型的方法。内容包括环境配置、模型加载、对话输入准备以及生成回答的全流程。此外,文章还分析了模型选型的8个关键考量因素,对比了主流闭源模型(如GPT、Gemini、Claude)和开源模型(如Llama、Mistral、Qwen)的特点和适用场景。最后指出闭源模型适合快速验证,而开源模型更适合数据敏感和定制化需求场景。

2026-01-09 09:00:00 1563

原创 Chapter3: 大语言模型基础 Part 9:能力的边界——缩放法则与模型幻觉

大语言模型的发展揭示了模型性能与参数量、数据量和计算资源之间的幂律关系(缩放法则)。研究发现模型规模达到阈值后会出现能力涌现现象,但也面临幻觉问题(生成错误或矛盾内容)。为解决这一问题,可采用检索增强生成(RAG)、多步推理验证和外部工具调用等方法。这些理论为智能体设计奠定了基础,下一阶段将转向实践应用。

2026-01-09 09:00:00 574

原创 Chapter 3: 大语言模型基础 Part 5:Decoder-Only 架构与 GPT 的崛起

本文探讨了从Transformer到GPT的演变过程,重点分析了Decoder-Only架构及其核心机制。GPT通过简化Transformer架构,仅保留解码器部分,采用"预测下一个词"的自回归工作模式。这种架构依靠掩码自注意力机制,确保模型仅基于已生成内容进行预测。其优势在于训练目标统一、结构简单易扩展、天然适合生成任务,成为GPT-4、Llama等主流大模型的标准范式,开启了大语言模型时代。

2026-01-08 09:00:00 494

原创 Chapter3: 大语言模型基础 Part 7:大模型如何“识字”?——分词器 (Tokenizer) 与 BPE 算法

摘要: 分词(Tokenization)是大模型处理文本的基础环节,将字符转换为数字序列。早期方法(按词或字符分词)存在词表爆炸或语义缺失问题,现代模型普遍采用子词分词(如BPE算法),通过合并高频字符对构建词表,平衡语义与效率。分词器影响显著:1)模型上下文窗口按Token计数,中文更占资源;2)API成本与Token数量挂钩;3)分词差异可能导致模型表现异常(如数学运算错误)。开发者可通过调整空格或大小写优化分词效果,提升模型理解能力。理解分词机制是优化Prompt和成本管理的关键。

2026-01-08 09:00:00 429

原创 Chapter 3: 大语言模型基础 Part 3:Transformer 的心脏——注意力机制

本文深入解析了Transformer中的多头注意力机制(MultiHeadAttention)。首先通过"it"指代"agent"的例子形象说明了自注意力机制的作用:让模型在处理每个词时都能关注句子中其他相关词。核心概念Q(查询)、K(键)、V(值)被比作开卷考试中的考题、章节标题和具体内容。计算过程包括:1)生成QKV向量;2)计算相关性得分;3)缩放和归一化;4)加权求和。多头注意力通过将QKV切分成多组并行计算,使模型能同时关注不同类型的关联关系。文章最后给出了

2026-01-07 09:00:00 764

原创 Chapter 3: 大语言模型基础 Part 4:Transformer 的骨血——前馈网络与位置编码

本文详细解析了Transformer架构中的关键组件:1) 逐位置前馈网络(FFN)通过"先扩大再缩小"的瓶颈结构提取高阶特征;2) 残差连接与层归一化(Add & Norm)解决了梯度消失问题并稳定训练;3) 位置编码通过正弦/余弦函数为词元注入位置信息。文中给出了PyTorch实现代码,包括PositionwiseFeedForward和PositionalEncoding模块的具体实现,并解释了register_buffer等技术细节。这些组件共同构成了Transforme

2026-01-07 09:00:00 515

原创 Chapter 3: 大语言模型基础 Part 6:与模型交互的艺术——提示工程与采样参数

本文探讨了与大语言模型交互的提示工程技巧。首先介绍了温度(Temperature)、Top-k和Top-p等采样参数的作用机制,温度控制输出随机性,Top-k/p决定候选词范围。其次分析了零样本、单样本和少样本提示策略的适用场景,示例数量影响模型理解任务的能力。文章还强调了指令调优对模型响应质量的影响,并分享了角色扮演、上下文示例等实用提示技巧。特别介绍了思维链(CoT)方法,通过分步推理显著提升复杂问题的解答准确率。这些技术能有效引导模型生成更符合预期的输出。

2026-01-06 12:11:42 603

原创 Chapter 2: 智能体发展史 (Part 6: 技术全景与历史脉络)

我们在前几篇中深入了微观的技术细节,现在我们需要回答一个宏观问题:我们是如何从 1950 年代的逻辑符号,一步步走到今天这个“大模型+智能体”的时代的?

2026-01-06 10:00:00 1902

原创 Chapter 3: 大语言模型基础 Part 2:RNN、LSTM 与 Transformer 的诞生

本文介绍了从RNN到Transformer的自然语言处理模型演进过程。首先分析了RNN通过隐藏状态实现序列记忆,但存在长期依赖问题;LSTM通过细胞状态和门控机制优化了记忆能力。随后重点解析了Transformer架构,它完全依赖注意力机制实现并行计算,采用编码器-解码器结构:编码器理解输入句子,解码器生成目标输出。文章还提供了基于PyTorch的Transformer核心代码框架,包含位置编码、多头注意力等模块定义,以及编码器和解码器层的实现结构,为后续详细实现奠定基础。

2026-01-06 10:00:00 816

原创 Chapter 3: 大语言模型基础 Part 1:从 N-gram 到词嵌入

本章系统阐述了现代智能体的思考机制,聚焦大语言模型(LLM)的核心原理。首先回顾了从N-gram统计模型到神经网络语言模型的演进过程:N-gram通过马尔可夫假设简化概率计算,但面临数据稀疏和泛化能力差的问题;神经网络语言模型则通过词嵌入技术,将词语映射到连续向量空间,有效捕捉语义关系。文章通过具体案例和Python代码演示了Bigram概率计算过程,并分析了词向量的代数运算特性,揭示了LLM理解语义关联的数学基础。这些技术突破为智能体的语言理解和生成能力奠定了重要基础。

2026-01-05 17:02:52 985

原创 Chapter 2: 智能体发展史 (Part 4: 学习范式的演进)

本文探讨了人工智能从符号主义到学习范式的演进过程。首先分析了符号主义在处理复杂问题时的局限性,进而引出联结主义和强化学习这两种自下而上的学习范式。联结主义通过分布式权重表示和反向传播算法实现感知能力,而强化学习则通过试错机制解决序贯决策问题。最后,文章介绍了基于大规模数据预训练的新范式,特别是大语言模型通过自监督学习获得的涌现能力,包括上下文学习和思维链推理。这些技术共同构成了现代智能体的核心框架,实现了感知、决策和知识获取的统一。

2026-01-05 10:00:00 548

原创 Chapter 2: 智能体发展史 (Part 5: LLM 驱动的现代智能体架构)

在集齐了符号推理、强化学习决策和 LLM 通用知识库这三块拼图后,现代智能体终于诞生了。它不再是一个单纯的语言模型,而是一个拥有感知、记忆、规划和工具使用能力的。

2026-01-05 10:00:00 871

原创 Chapter 2: 智能体发展史 (Part 1: 符号主义与逻辑的黄金时代)

本文回顾了人工智能早期发展的符号主义范式。20世纪70年代,物理符号系统假说提出智能即符号计算,催生了专家系统等应用,如医疗诊断系统MYCIN和积木世界交互系统SHRDLU。这些系统通过预设规则和逻辑推理展现智能,但面临知识获取瓶颈、常识缺失和框架问题等根本性挑战,导致系统脆弱且难以适应开放环境。符号主义的局限促使AI转向学习范式,为现代智能体的发展奠定了基础。

2026-01-04 10:00:00 941

原创 Chapter 2: 智能体发展史 (Part 2: 动手实现 ELIZA 聊天机器人)

缺乏语义理解:系统不理解词义。例如,面对的输入,它仍会机械地匹配I am (.*)规则,可能生成“How long have you been not happy?” 这样语义略显生硬的回应,因为它无法理解否定词not的作用。无上下文记忆 (Stateless):系统是无状态的,每次回应仅基于当前单句输入,无法进行连贯的多轮对话。规则的扩展性问题:尝试增加更多规则会导致规则库规模爆炸式增长,规则间的冲突与优先级管理将变得极其复杂,最终导致系统难以维护。ELIZA 的实践清晰地揭示了符号主义方法的核心矛盾。

2026-01-04 10:00:00 561

原创 Chapter 2: 智能体发展史 (Part 3: 马文·明斯基的心智社会)

摘要:本文探讨了人工智能从单一规则系统向分布式智能的范式转变。马文·明斯基在《心智社会》中提出革命性观点:智能源于多样化的简单智能体协作,而非单一完美原则。通过搭建积木塔的案例,展示了"无心"智能体如何通过局部交互涌现复杂行为。这一理论为多智能体系统(DAI/MAS)奠定基础,包括去中心化控制、涌现式计算和社会性交互三大核心思想,挑战了传统自上而下的AI设计范式,对现代分布式人工智能发展产生深远影响。

2026-01-04 10:00:00 595

原创 初识智能体 Part 3:详解 Agent Loop 与 5 分钟手写智能体实战

本文深入解析了智能体的"感知-思考-行动"核心循环机制,并演示如何用Python构建智能旅行助手。智能体通过持续循环与环境交互:感知阶段接收输入信息,思考阶段进行规划决策,行动阶段执行工具调用,最后观察环境反馈。文章详细介绍了结构化输出协议的设计,包括思考过程和行动指令的格式规范。通过实例展示了如何实现天气查询和景点推荐两个功能模块,并提供了完整的系统提示模板和API调用代码。这种循环机制使智能体能够分步解决复杂任务,如先查询天气再推荐景点,展现了逻辑规划和工具调用的能力。

2026-01-03 10:00:00 2172

原创 初识智能体 Part 4:运行实战复盘与协作模式解析

本文通过分析智能旅行助手的运行日志,展示了智能体基于Thought-Action-Observation范式解决问题的四项核心能力:任务分解、工具调用、上下文理解和结果合成。文章进一步探讨了智能体的两种协作模式:作为开发工具(如GitHub Copilot)和自主协作者(如AgentGPT),并对比了Workflow与Agent的本质差异——前者按预设流程执行,后者具备动态决策能力。最后提出了6个思考题,引导读者深入思考智能体的分类、设计、应用及局限性等问题。

2026-01-03 10:00:00 420

原创 初识智能体 Part 2:智能体的决策架构与认知模型

本文系统分析了智能体的分类体系,重点探讨了三种分类维度:基于内部决策架构(从反应式到规划式智能体)、基于时间与反应性(权衡速度与最优解)以及基于知识表示(符号主义与亚符号主义AI)。文章还介绍了混合式智能体和神经符号主义AI的创新融合模式。通过PEAS模型(性能、环境、执行器、传感器)对智能旅行助手进行案例解析,揭示了现代LLM智能体面临的部分可观察、随机性、多智能体和动态序贯等复杂环境特性。这些分类框架和环境分析为智能体系统的设计与应用提供了理论基础。

2026-01-02 16:24:20 765

原创 初识智能体 Part 1:从恒温器到 LLM 的演进

本文系统阐述了智能体的本质与演进历程。智能体定义为能感知环境并自主行动的实体,包含环境、传感器、执行器和行动四大要素。文章梳理了从反射智能体到学习型智能体的传统范式发展,重点对比了传统智能体与大语言模型(LLM)驱动智能体的核心差异:前者依赖显式编程和确定性规则,后者基于预训练模型,具有自然语言理解、概率推理和动态适应能力。以旅行助手为例,展示了LLM智能体在任务分解、工具调用和动态修正方面的优势,体现了新范式在泛化能力和交互方式上的突破。

2026-01-02 16:14:20 568

原创 关于在博客页面添加live2d-widget的一些心得和踩过的坑

摘要 本文介绍了在Hugo博客中集成自定义Live2D模型的完整流程。主要内容包括:1)准备Live2D资源,需创建GitHub仓库并上传模型文件;2)配置主题中的Live2D加载脚本,处理CDN访问问题;3)提供多CDN回退方案确保模型稳定加载。作者分享了实际解决模型加载失败、CDN访问受限等问题的经验,并推荐了现成的模型仓库。文章详细说明了文件结构、关键配置参数和调试技巧,适合想在个人网站添加互动Live2D角色的开发者参考。

2025-09-29 22:06:46 677

原创 吴恩达机器学习笔记:正则化2

针对逻辑回归问题,我们在之前已经学习过两种优化算法:我们首先学习了使用梯度下降法来优化代价函数𝐽(𝜃),接下来学习了更高级的优化算法,这些高级优化算法需要你自己设计代价函数𝐽(𝜃)。可以看出,正则化线性回归的梯度下降算法的变化在于,每次都在原有算法更新规则的基础上令𝜃值减少了一个额外的值。对于线性回归的求解,我们之前推导了两种学习算法:一种基于梯度下降,一种基于正规方程。图中的矩阵尺寸为 (𝑛 + 1) ∗ (𝑛 + 1)注:看上去同线性回归一样,但是知道。,所以与线性回归不同。

2025-06-19 14:13:49 800

原创 吴恩达机器学习笔记:正则化1

正则化(regularization)**的技术,它可以改善或者减少过度拟合问题。如果我们有非常多的特征,我们通过学习得到的假设可能能够非常好地适应训练集(代价函数可能几乎为 0),但是可能会不能推广到新的数据。下图是一个回归问题的例子:第一个模型是一个线性模型,欠拟合,不能很好地适应我们的训练集;第三个模型是一个四次方的模型,过于强调拟合原始数据,而丢失了算法的本质:预测新数据。

2025-06-19 14:03:29 805

原创 吴恩达机器学习:逻辑回归6

第三个例子:如果你正在做有关天气的机器学习分类问题,那么你可能想要区分哪些天是晴天、多云、雨天、或者下雪天,对上述所有的例子,𝑦 可以取一个很小的数值,一个相对"谨慎"的数值,比如 1 到 3、1 到 4 或者其它数值,以上说的都是多类分类问题,顺便一提的是,对于下标是 0 1 2 3,还是 1 2 3 4 都不重要,我更喜欢将分类从 1 开始标而不是0,其实怎样标注都不会影响最后的结果。可以这样想,设置三角形的值为 1,圆形的值为 0,下面我们来训练一个标准的逻辑回归分类器,这样我们就得到一个正边界。

2025-06-17 13:49:05 1264

原创 吴恩达机器学习笔记:逻辑回归5

这篇我们将会找出一种稍微简单一点的方法来写代价函数,来替换我们现在用的方法。同时我们还要弄清楚如何运用梯度下降法,来拟合出逻辑回归的参数。因此,即使更新参数的规则看起来基本相同,但由于假设的定义发生了变化,所以逻辑函数的梯度下降,跟线性回归的梯度下降实际上是两个完全不同的东西。如果你把这个更新规则和我们之前用在线性回归上的进行比较的话,你会惊讶地发现,这个式子正是我们用来做线性回归梯度下降的。根据这个代价函数,为了拟合出参数,该怎么做呢?我们要反复更新每个参数,用这个式子来更新,就是用它自己减去学习率。

2025-06-17 13:27:22 781

原创 吴恩达机器学习笔记:逻辑回归4

我们定义了单训练样本的代价函数,凸性分析的内容是超出范围的,但是可以证明我们所选的代价值函数会给我们一个凸优化问题。带入到这样定义了的代价函数中时,我们得到的代价函数将是一个非凸函数(non-convexfunction)。具体来说,要定义用来拟合参数的优化目标或者叫代价函数,这便是监督学习问题中的逻辑回归模型的拟合问题。与线性回归中不同,所以实际上是不一样的。注:虽然得到的梯度下降算法表面上看上去与线性回归的梯度下降算法一样,但是这里的。对于线性回归模型,我们定义的代价函数是所有模型误差的平方和。

2025-05-25 15:54:54 1027

原创 吴恩达机器学习笔记:逻辑回归3

的参数向量为[-1 0 0 1 1],则我们得到的判定边界恰好是圆点在原点且半径为 1 的圆形。= 3,这条线便是我们模型的分界线,将预测为1的区域和预测为0的区域分隔开。假使我们的数据呈现这样的分布情况,怎样的模型才能适合呢?当ℎθ (x) < 0.5时,预测 y = 0。并且参数θ是向量[-3 1 1]。当ℎθ (x) >= 0.5时,预测 y = 1。≥ 3时,模型将预测 y = 1。Z = 0 时 g(Z) = 0.5。>= 0 时,预测 y = 1。< 0 时,预测 y = 0。

2025-05-25 15:23:12 528 1

原创 吴恩达机器学习笔记:逻辑回归2

在分类问题中,要用什么样的函数来表示我们的假设。此前我们说过,希望我们的分类器的输出值在 0 和 1 之间,因此,我们希望想出一个满足某个性质的假设函数,这个性质是它的预测值要在 0 和 1 之间。例如,如果对于给定的x,通过已经确定的参数计算得出ℎθ (x) = 0.7,则表示有 70%的几率y为正向类,相应地y为负向类的几率为 1-0.7=0.3。ℎθ (x)的作用是,对于给定的输入变量,根据选择的参数计算输出变量=1 的可能性 (estimated probablity)

2025-05-16 18:09:34 921

原创 吴恩达机器学习笔记:逻辑回归1

如果我们要用线性回归算法来解决一个分类问题,对于分类, y 取值为 0 或者 1,但如果你使用的是线性回归,那么假设函数的输出值可能远大于 1,或者远小于 0,即使所有训练样本的标签 y 都等于0 或 1。尽管我们知道标签应该取值 0 或者 1,但是如果算法得到的值远大于 1 或者远小于 0 的话,就会感觉很奇怪。在分类问题中,你要预测的变量 𝑦 是离散的值,我们将学习一种叫做逻辑回归 (Logistic Regression) 的算法,这是目前最流行使用最广泛的一种学习算法。

2025-05-16 17:16:27 440

原创 吴恩达机器学习笔记: 正规方程

因此,梯度下降法是一个非常有用的算法,可以用在有大量特征变量的线性回归问题。所以,根据具体的问题,以及你的特征变量的数量,这两种算法都是值得学习的。随着我们的学习算法越来越复杂,例如,分类算法,像逻辑回归算法, 我们会看到,实际上对于那些算法,并不能使用标准方程法。注:对于那些不可逆的矩阵(通常是因为特征之间不独立,如同时包含英尺为单位的尺寸和米为单位的尺寸两个特征,也有可能是特征数量大于训练集的数量),正规方程方法是不能用的。总结一下,只要特征变量的数目并不大,标准方程是一个很好的计算参数θ的替代方法。

2025-05-15 14:30:49 1078

原创 吴恩达机器学习笔记:特征与多项式回归

注:如果我们采用多项式回归模型,在运行梯度下降算法前,特征缩放非常有必要。通常我们需要先观察数据然后再决定准备尝试怎样的模型。,从而将模型转化为线性回归模型。

2025-05-15 14:07:28 614

原创 吴恩达机器学习笔记:多维梯度下降实践

以房价问题为例,假设我们使用两个特征,房屋的尺寸和房间的数量,尺寸的值为 0- 2000 平方英尺,而房间数量的值则是 0-5,以两个参数分别为横纵坐标,绘制代价函数的等高线图能看出图像会显得很扁,梯度下降算法需要非常多次的迭代才能收敛。梯度下降算法收敛所需要的迭代次数根据模型的不同而不同,我们不能提前预知,我们可以绘制迭代次数和代价函数的图表来观测算法在何时趋于收敛。梯度下降算法的每次迭代受到学习率的影响,如果学习率a过小,则达到收敛所需的迭代次数会非常高;其中 μn 是平均值,sn 是标准差。

2025-05-14 14:50:04 530

原创 吴恩达机器学习笔记:多变量梯度下降

这个公式中有个n+1参数和个n变量,为了使得公式能够简化一些,引入x0=1 则公式转化为:ℎθ (x) = θ0x0 + θ1x1 + θ2x2 +. . . +θnxn。此时模型中的参数是一个n + 1维的向量,任何一个训练实例也都是n + 1维的向量公式可以简化为:ℎθ(x) = θᵀX其中上标T代表矩阵转置。之前我们探讨了单变量/特征的回归模型,现在我们对房价模型增加更多的特征,例如房间数楼层等,构成一个含有多个变量的模型,模型中的特征为。

2025-05-14 14:40:39 725

原创 吴恩达机器学习笔记:梯度下降

实际上,在机器学习中,通常不太会给算法起名字,但这个名字”批量梯度下降”,指的是在梯度下降的每一步中,我们都用到了所有的训练样本,在梯度下降中,在计算微分求导项时,我们需要进行求和运算,所以,在每一个单独的梯度下降中,我们最终都要计算这样一个东西,这个项需要对所有训练样本求和。如果a太大,那么梯度下降法可能会越过最低点,甚至可能无法收敛,下一次迭代又移 动了一大步,越过一次,又越过一次,一次次越过最低点,直到你发现实际上离最低点越来越远,所以,如果a太大,它会导致无法收敛,甚至发散。

2025-05-13 16:30:25 1439

原创 吴恩达机器学习笔记:代价函数

在线性回归中我们有一个像这样的训练集,m代表了训练样本的数量,比如m=47。而我们的假设函数,也就是用来进行预测的函数,是这样的线性函数形式接下来我们会引入一些术语我们现在要做的便是为我们的模型选择合适的参数 θ0 和 θ1,在房价问题这个例子中便是直线的斜率和在y 轴上的截距。我们选择的参数决定了我们得到的直线相对于我们的训练集的准确程度,模型所预测的 值与训练集中实际值之间的差距(下图中蓝线所指)就是建模误差。我们的目标便是选择出可以使得建模误差的平方和能够最小的模型参数。

2025-05-13 15:49:15 450

原创 吴恩达机器学习笔记:单变量线性回归

那么,你可以做的一件事就是构建一个模型,也许是条直线,从这个数据模型上来看,能以大约 220000(美元)左右的价格卖掉这个房子。要解决房价预测问题,我们实际上是要将训练集“喂”给我们的学习算法,进而学习得到一个假设ℎ,然后将我们要预测的房屋的尺寸作为输入变量输入给ℎ,预测出该房屋的交易价格作为输出变量输出为结果。ℎ代表hypothesis(假设),ℎ表示一个函数,输入是房屋尺寸大小,就像你想出售的房屋,因此ℎ根据输入的x值来得出y值,y值对应房子的价格因此,ℎ是一个从x到y的函数映射。

2025-05-12 20:29:55 276

原创 吴恩达机器学习笔记:无监督学习

这也是无监督学习,因为我们拥有所有的顾客数据,但我们没有提前知道是什么的细分市场,以及分别有哪些我们数据集中的顾客。这个就是无监督学习,没有提前告知算法一些信息,比如,这是第一类的人,那些是第二类的人,还有第三类,等等。其中就有基因学的理解应用,一个DNA微观数据的例子。所以这些颜色,红,绿,灰等等颜色,这些颜色展示了相应的程度,即不同的个体是否有着一个特定的基因。在无监督学习中,我们已知的数据看上去有点不一样,不同于监督学习的数据的样子,即无监督学习中没有任何的标签或者是有相同的标签或者就是没标签。

2025-05-12 17:18:13 482

原创 吴恩达机器学习笔记:监督学习

想象一下,我没有写下这两种和右边的三种特征,而是在一个无限长的列表里面,一直写一直写不停的写,写下无限多个特征,事实上,我们能用算法来处理它们。在其他机器学习问题中,我们通常有更多的特征,对待这个问题时,通常采用这些特征,比如肿块密度,肿瘤细胞尺寸的一致性和形状的一致性等等,还有一些其他的特征。相反,你想用无限多种特征,好让你的算法可以利用大量的特征,或者说线索来做推测。在房价的例子中,我们给了一系列房子的数据,我们给定数据集中每个样本的正确价格,即它们实际的售价然后运用学习算法,算出更多的正确答案。

2025-05-12 16:44:10 987 1

原创 Android Studio修改Standard到Custom模式的方法

这次安装Android Studio时没有照着教程安装,在选择setup模式的时候选择了Standard模式,之后C盘差点爆炸,尝试卸载之后下载重新选择Custom模式,发现不出现弹窗。

2024-06-24 15:10:20 1592 3

原创 机器学习--Transformer 2

紧接上篇介绍一下Transformer的解码器。

2024-03-11 20:26:52 1500 1

原创 机器学习--Transformer 1

Transformer 是一个基于自注意力的序列到序列模型,与基于循环神经网络的序列到序列模型不同,其可以能够并行计算。

2024-03-11 20:25:45 2000 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除