自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

AI与算法都要通俗易懂

董董灿的AI聚集地

  • 博客(366)
  • 资源 (1)
  • 收藏
  • 关注

原创 Transformer 通关秘籍9:词向量的数值实际上是特征

在前面的文章中,大概花费了几节的篇幅,详细介绍了 token 以及词嵌入向量的概念。到这里,你应该可以理解了:在计算机的眼里,所有的文本首先都要经过分词转换为 token ,然后再使用词嵌入算法将 token 转换为词向量。如果还有不理解的相关内容,可以返回前述几节再详细阅读一下,或者在本节下留言。本节将通过一个例子,来帮你更加通俗的理解词嵌入向量代表的含义:实际上,词向量中的数值,代表的是单词的语义在各个维度上的特征。

2025-04-03 10:07:41 452

原创 Transformer 通关秘籍8:词向量如何表示近义词?

在进行文本处理之前,文本转换为词嵌入向量是必须的,并且要转换为具有多个维度的高维向量,以此来衡量文本的语义。在GPT-4的词嵌入空间中,推荐使用余弦相似度来衡量向量的“距离”,这是因为 GPT-4 把嵌入向量标准化到了1,从而使得余弦相似度与欧氏距离在衡量向量相似性上具有一样的排名。在其他的场景下,也可以使用余弦相似度这一指标来衡量向量的相似性。比如衡量两个文本或图像是否相似,直接计算其余弦相似度,也是一种简单有效的办法。

2025-04-02 19:32:49 627

原创 Transformer 通关秘籍7:词向量的通俗理解

首先,词嵌入的作用,是将整数(这里就理解为 token ID 就好了)转换为一个固定大小的向量。这些转换过程可以通过模型的大规模训练来完成。转换完之后的向量可以捕获以及表达 token 之间的复杂关系,比如语义关系、语法关系等。这些向量通常被称为嵌入向量,用多维数据进行表示,每一维都代表 token 的一些隐含特征。举个例子,假设 cat 转换为词嵌入向量后为 [100, 200, 300]。这里是为了举例子,用了一个仅包含3个特征(通常情况下为512个特征)的向量。

2025-04-01 14:59:42 519

原创 Transformer 通关秘籍6:词汇表:文本到数值的转换

前面几节一直在介绍 token 相关的内容,相信你看到这里,对 token 肯定很了解了吧。如果对 token 本身还有其他疑问,可以在本文下留言。本节开始,进入下一步骤,由 token 到数值的转换。以上3个步骤中,每一个其背后都有重要的意义和作用。本节先介绍第一个步骤:文本到数值的转换。

2025-03-31 10:51:51 923

原创 一文学会 Qwen2-0.5B+Lora+alpaca_zh 微调实战,附完整可运行源代码

预训练大模型在训练过程中,虽然学到了很多通用知识,但是很多时候,大模型本身并不能在专业领域表现得非常好。比如你让 Qwen 模型回答“量子力学中的叠加态是什么”,它可能会给出一个笼统的解释,但要是让模型严格按照某一格式(比如论文格式)回答时,可能就不太行。除非你在上下文聊天中给他一些例子让他先自我学习。这也被称为“上下文学习能力 + Few-shot”的方式,但这并不改变模型的本质。一旦你切换了与模型聊天的上下文,模型又会恢复到它原来的样子。

2025-03-27 19:49:13 579

原创 Transformer 通关秘籍5:GPT4 模型的 tokenization 的可视化网站

在前面几节,你了解了 token 的概念以及对文本进行分词的大致过程后。本节给出一个使用 GPT4 模型(当前 OpenAI 最强大的模型)拆分 token 并将拆分结果进行可视化的网站,你可以去这个网站上测试一下分词效果。网址:https://platform.openai.com/ tokenizer。

2025-03-27 10:10:40 359

原创 Transformer 通关秘籍2:利用 BERT 将文本 token 化

前面两节分别通过两个代码示例展示了模型将文本转换为 token 之后是什么样的,希望你可以对此有一个感性的认识。本节来简要介绍一下将一个连续的文本转换为 token 序列的大致过程,这个过程被称为分词,也叫 tokenization。在你没了解这方面的知识之前,如果让你实现一个类似的算法,你会如何来实现呢?我想你可能最先想到便是使用空格来进行分词。

2025-03-26 16:39:17 796

原创 Transformer 通关秘籍3:利用 GPT2 将文本 token 化

在上一节,利用 BERT 模型将一个文本进行了 token 化。那你可能会问,是不是所有的模型将同一个文本 token 化之后,结果都一样呢?当然不是。这是因为不同的模型对文本进行 token 化时使用到的算法不一样。在 BERT 中用到的是 WordPiece 算法,而 GPT 系列模型将文本进行 token 化时,使用的则是 Byte-Pair Encoding(BPE)算法,这两种算法虽然不是本专栏的重点,但后面也会专门来讲解一下。

2025-03-25 07:56:48 402

原创 Transformer 通关秘籍2:利用 BERT 将文本 token 化

在上一节,我们介绍了 token 的概念。你可以这么认为, token 是自然语言处理场景(如文本生成、AI聊天)下,AI 模型能够处理的最小单位。在计算机视觉中,模型以像素为单位来处理图像像素之间的关系,而语言模型则是以 token 为单位理解 token 之间的关系。下面通过一个小例子,来展示一下语言模型是如何将一段文本转换为 token 的,以及模型将文本转换为 token 之后是什么样子。

2025-03-24 10:47:45 493

原创 利用 Resnet50 微调图像分类模型,完成宠物数据集的识别,附源代码。。

微调其实很简单,就是用一个已经预训练过的模型(预训练模型),稍微调整一下模型中某些层的权值,使其可以在新的任务上表现的更好。ResNet 本身是一个深度卷积神经网络模型,这个模型在 ImageNet 数据集(包含 1000 种物品)上已经训练过了。所以,我们可以认为,这个模型已经学会了图像识别的基础技能,比如怎么识别图像的边缘、颜色和形状等。如果我们想用它来进一步识别宠物,其实不用从零开始训练,在这个预训练模型的基础上进行微调,才是一个更好地选择。

2025-03-18 15:27:10 391

原创 利用 Resnet50 重新训练,完成宠物数据集的识别,附源代码。。

ResNet50 是一个深度卷积神经网络,包含 50 层,设计用来处理图像分类任务。它在 ImageNet 数据集上表现优异,能识别 1000 种物体。我们今天的目标是重新训练它,让它学会识别新的类别——37 种宠物。选择 ResNet50 的理由很简单——成熟的结构,它已经被广泛验证,适合大多数图像分类任务。开箱即用:PyTorch 提供了现成的实现,省去自己设计的麻烦。高效性:即使从零开始训练,也能得到不错的结果。下面,我们将训练过程拆成几个关键步骤,逐步讲解。

2025-03-18 15:16:58 1213

原创 Transformer 通关秘籍1:什么是 token?

在计算机相关领域中,token 通常是指一串字符或符号。比如微信公众平台的密钥,就被称作一个 token,其实就是一长串的字符串。在人工智能领域,尤其是自然语言处理(Natural Language Processing, NLP)领域中, “token” 指的是处理文本时所能处理的最小单元或基本元素。它可以是一个单词、一个词组、一个标点符号、一个子词或者一个字符。

2025-03-09 11:29:51 635

原创 一文看懂 Claude 3.7 Sonnet,为什么是第一个融合推理模式的 AI 模型

AI 生成答案时,通常会消耗“计算资源”,这个计算过程可以看作是“AI 在思考”。Claude 3.7 Sonnet 允许开发者设定 AI 思考的时间上限,也就是可以控制 AI“思考多久”再输出答案。快速模式(短时间思考):适用于客户服务、普通对话等对速度要求较高的任务。深度模式(长时间思考):适用于数学推理、编程、科学计算等需要精准性的任务。N=500:AI 仅消耗 500 个 token,适用于快速回复。N=10,000。

2025-02-25 10:52:25 1278

原创 DeepSeek 技术原理大揭秘,爆肝 10 小时,一篇就够!(1/3)

DeepSeek-R1 的训练过程也类似,如果直接用强化学习(RL)进行训练,那么 AI 一开始就会像一个“什么都不会的孩子”,不断犯错,生成一堆毫无逻辑的答案,甚至可能陷入无意义的循环。所以,可以认为 DeepSeek-R1 是在 R1-Zero 的基础上,通过额外的训练步骤优化了推理质量,避免了重复回答、提高了可读性,并且能更好地对齐人类偏好。可以看出,DeepSeek-R1 通过冷启动数据显著提升了数学推理、代码推理等任务的准确率,并且在生成答案的可读性上远超 DeepSeek-R1-Zero。

2025-02-06 10:16:57 1601 1

原创 DeepSeek R1技术报告关键解析(10/10):如何进一步提升 AI 推理能力

未来 AI 的推理能力仍然有很大的提升空间,DeepSeek-R1 只是 AI 推理能力发展中的一个阶段性成果。通过优化长链推理、提升泛化能力、发展多模态推理和提高推理效率,AI 在未来可能会具备更接近人类的推理能力,甚至在某些任务上超越人类。我创建了一个《小而精的AI学习圈》知识星球,星球上有几十万字原创高质量的技术专栏分享,同时你也可以在星球向我提问。点击这里,我们星球见!点击这里查看所有 AI 技术专栏。

2025-02-05 17:20:01 878

原创 DeepSeek R1技术报告关键解析(9/10):强化学习也不是万能的

强化学习虽然能够提升 AI 的推理能力,但它并非完美的方法,在训练 DeepSeek-R1 的过程中,研究人员遇到了训练不稳定、推理能力受限、奖励黑客问题和计算成本高等挑战。尽管如此,研究团队通过冷启动数据、拒绝采样、知识蒸馏和多阶段训练策略,成功提升了 AI 的推理能力。我创建了一个《小而精的AI学习圈》知识星球,星球上有几十万字原创高质量的技术专栏分享,同时你也可以在星球向我提问。点击这里,我们星球见!点击这里查看所有 AI 技术专栏。

2025-02-05 17:18:26 744

原创 DeepSeek R1技术报告关键解析(8/10):DeepSeek-R1 的“aha 时刻”,AI 自主学习的新突破

在强化学习过程中,AI 的推理能力并不是线性增长的,而是会经历一些关键的“顿悟”时刻,研究人员将其称为“aha 时刻”。这是 AI 在训练过程中突然学会了一种新的推理方式,或者能够主动发现并修正自己的错误,就像人类在学习时偶尔会有的“豁然开朗”时刻。在 DeepSeek-R1 的训练过程中,研究人员观察到 AI 逐步形成了自我验证、自我反思、推理链优化等能力,这些能力的出现往往是非线性的,意味着 AI 在某个阶段突然学会了更高效的推理方法,而不是缓慢积累的过程。

2025-02-05 17:15:42 2334 1

原创 DeepSeek R1技术报告关键解析(7/10):多阶段训练策略,如何优化 AI 的推理能力

多阶段训练策略是 DeepSeek-R1 能够在数学推理、代码推理等任务上超越传统 AI 训练方法的关键。通过冷启动数据、强化学习、拒绝采样和监督微调相结合,AI 在推理任务上的能力得到了显著提升。我创建了一个《小而精的AI学习圈》知识星球,星球上有几十万字原创高质量的技术专栏分享,同时你也可以在星球向我提问。点击这里,我们星球见!点击这里查看所有 AI 技术专栏。

2025-02-05 17:13:31 1099

原创 DeepSeek R1技术报告关键解析(6/10):DeepSeek-R1 vs. OpenAI-o1-1217:性能对比分析

DeepSeek-R1 在数学推理任务上已经超越 OpenAI-o1-1217,但在代码推理和知识问答任务上仍然存在优化空间。作为开源模型,DeepSeek-R1 具有更高的透明度和可定制性,未来可以通过优化训练数据和强化学习策略,在更多任务上与 OpenAI 的高端模型竞争。开源总比闭源要好的吧~~我创建了一个《小而精的AI学习圈》知识星球,星球上有几十万字原创高质量的技术专栏分享,同时你也可以在星球向我提问。点击这里,我们星球见!点击这里查看所有 AI 技术专栏。

2025-02-05 17:11:15 2129

原创 DeepSeek R1技术报告关键解析(5/10):知识蒸馏:如何让小模型也能具备强推理能力?

知识蒸馏(Knowledge Distillation)是一种让小模型从大模型学习的技术,类似于一位资深老师将自己的知识浓缩后,传授给学生。大模型通常计算量大、推理速度慢,而小模型虽然计算资源消耗更少,但推理能力往往不如大模型。通过知识蒸馏,小模型可以继承大模型的推理能力,同时保持较低的计算成本。在 DeepSeek-R1 训练过程中,研究人员通过知识蒸馏,让较小的模型也能具备较强的推理能力。

2025-02-05 17:08:01 1481 2

原创 DeepSeek R1技术报告关键解析(4/10):拒绝采样(Rejection Sampling)让 AI 生成更靠谱的答案

AI 生成的答案并不总是正确的,有时候它会输出胡言乱语、逻辑错误或者无意义的推理链。如果不进行筛选,这些错误答案可能会影响模型的学习过程,甚至让 AI 形成错误的推理模式。为了解决这个问题,DeepSeek-R1 采用了一种称为拒绝采样(Rejection Sampling, RS)的方法,让 AI 在训练过程中优中选优,只保留最优质的推理答案,从而提升整体推理能力。

2025-02-05 17:01:30 1598

原创 DeepSeek R1技术报告关键解析(3/10):冷启动数据让 AI 训练不再“摸黑”前进

DeepSeek-R1 的训练过程也类似,如果直接用强化学习(RL)进行训练,那么 AI 一开始就会像一个“什么都不会的孩子”,不断犯错,生成一堆毫无逻辑的答案,甚至可能陷入。我创建了一个《小而精的AI学习圈》知识星球,星球上有几十万字原创高质量的技术专栏分享,同时你也可以在星球向我提问。可以看出,DeepSeek-R1 通过冷启动数据显著提升了数学推理、代码推理等任务的准确率,并且。值得注意的是,DeepSeek-R1 的冷启动数据并不是一次性构建的,而是一个。的概念,即在 AI 训练的早期阶段,

2025-02-05 16:56:36 1423

原创 DeepSeek R1技术报告关键解析(2/10):DeepSeek-R1-Zero 首个纯强化学习推理大模型

大多数 AI 训练方法都依赖人类提供的大量标注数据,但 DeepSeek-R1-Zero 选择了“这种自我优化能力,使得 DeepSeek-R1-Zero 在多个推理任务上取得了突破性的成绩。下面我将 DeepSeek-R1-Zero 的训练机制、性能表现以及存在的局限性进行了总结。但是它存在语言混乱、可读性差等问题,从而让研究人员开发了 DeepSeek-R1,这些问题的出现,让研究人员开发了 DeepSeek-R1,即在 RL 训练前。DeepSeek-R1-Zero 甚至出现了研究人员称之为“

2025-02-05 16:49:12 1348

原创 DeepSeek R1技术报告关键解析(1/10):强化学习如何提升 AI 推理能力

换句话说,AI 只是一个“超级记忆机”,它能模仿人类的答案,但却不一定真正理解问题的本质。这就像是在训练一个孩子解数学题,监督学习相当于直接告诉他答案,而强化学习则是让他自己尝试解题,并根据最终的正确率进行调整。我创建了一个《小而精的AI学习圈》知识星球,星球上有几十万字原创高质量的技术专栏分享,同时你也可以在星球向我提问。这些结果证明,即使完全不依赖人工标注数据,仅靠强化学习,AI 也能学会复杂的推理能力。来增强 AI 的语言能力,同时结合强化学习,以达到更优的推理效果。过去的 AI 训练方式主要依赖。

2025-02-05 16:01:02 765

原创 DeepSeek-R1 和 DeepSeek-R1-Zero 的区别(通俗版)

DeepSeek-R1 和 DeepSeek-R1-Zero 都是,它们的核心目标是提升推理能力,特别是在数学、代码和复杂问题解决方面。但它们的训练方式和特点有很大不同。简单来说,,而。

2025-02-05 15:04:43 1170

原创 DeepSeek-R1 技术报告精华整理:通过强化学习提升大模型推理能力

近年来,大语言模型(LLM)快速发展,逐步缩小了与通用人工智能(AGI)之间的差距。后训练(Post-Training)已成为模型训练的重要环节,能提高推理任务的准确性,并对齐社会价值观,同时相比预训练消耗更少的计算资源。在 DeepSeek-R1 的研究过程中,我们发现,通过强化学习(RL)训练,大模型可以自主学习推理能力,而无需传统的监督微调(SFT)作为先决条件。这一发现为 LLM 推理能力的培养提供了新的方向,同时也表明了 RL 训练可以让模型自然学习链式思维(CoT)策略,解决复杂问题。

2025-02-05 14:55:59 683

原创 DeepSeek 的含金量还在上升

CUDA 编程之所以说是英伟达软件生态的护城河,原因是英伟达的编译器对 CUDA 语言做了很多优化和适配,使 CUDA 编写的程序可以非常容易且高效的运行在 GPU 芯片上。CUDA 也是一样的,它本身也是一种类 C 语言的“高级语言”,说它高级是相对于底层汇编而言的,而非真正的高级语言。但虽然如此, CUDA 的护城河仍然存在,因为并不是所有的公司都能做到手写汇编,这里的技术壁垒还是挺高的。要想真正打破 CUDA 护城河,需要重新定义和建立新的芯片架构和编程范式,这一点在目前的情况下还是挺难的。

2025-02-04 20:13:09 6626 4

原创 023:到底什么是感受野?

本文为合集收录,欢迎查看合集/专栏链接进行全部合集的系统学习。合集完整版请查看。在前面介绍卷积算法时,一直在强调一个内容,那就是卷积算法的运算过程是——卷积核在输入图像上滑动扫描的过程。在每一次扫描时,可以把卷积核看做一个窗口,透过这个窗口可以看到的输入图像的范围,就被称为感受野,也就是卷积核在每一次扫描过程中覆盖到的图像视野。这个概念很好理解,但是有必要对这个概念再深入介绍一下,因为感受野这一概念,和很多神经网络结构和特性都有着千丝万缕的关系。

2025-01-20 21:34:20 863

原创 022、什么是卷积的特征图?

特征图,也称 Feature Map,指的是在卷积神经网络(CNN)中,通过卷积这一操作从输入图像中提取到的特征图。上一节用动态示意图介绍了卷积算法的运算大致过程。这里再重新描述一下运算过程:卷积核在输入图像上进行扫描,每次扫描时,将卷积核与输入图像中的数据进行逐元素相乘,并将相乘之后的结果进行相加,然后输出,这个输出就是 卷积的输出特征图。特征图描述了输入数据中不同位置的不同特征是否被激活。

2025-01-20 21:25:43 390

原创 021:为什么是卷积呢?

本文为合集收录,欢迎查看合集/专栏链接进行全部合集的系统学习。合集完整版请查看。卷积算法非常重要,但是为什么是卷积呢?在进一步学习之前,先看一看神经网络(或者叫一个AI模型)是如何完成一张图片的推理的。你肯定听说过阿尔法狗大战柯洁的故事,当时新闻一出,不知大家什么反应,反正我是被震撼到了:AI 模型竟然学到了那么多的棋谱,而且人类在AI的面前毫无还手可言。但是,你有没有想过一个问题:阿尔法狗学会了下棋,它下棋的记忆是什么样的呢,存在什么地方呢?

2025-01-20 21:19:01 506

原创 020:为什么 Resnet 如此重要?

本文为合集收录,欢迎查看合集/专栏链接进行全部合集的系统学习。合集完整版请查看。Resnet模型的重要性,上一节大概介绍了一下。可以从以下两个方面来有所体现:第一是Resnet广泛的作为其他神经网络的backbone;第二是Resnet是AI芯片厂家对标性能时,在视觉领域尤其是图像分类任务中的首选网络。下面针对这两点再补充介绍一下。

2025-01-19 22:22:07 845

原创 019:什么是 Resnet50 神经网络

Resnet神经网络是何凯明在《DeepResidualLearningforImageRecognition》论文中首次提出的。Resnet50模型之所以叫这个名字,是因为模型的核心思想就藏在名字里。名字可以拆分为:Res+net+50,Res是Residual(残差)的缩写,50指的是整个网络中有50个卷积层。Resnet有很多系列,比如Resnet18,Resnet101等,后面跟的数字代表的是神经网络中的卷积层的数量。

2025-01-19 21:58:45 1423

原创 018:实战:从零开始完成手写数字识别训练和推理

简答来说,就是搭建了一个卷积神经网络,可以完成手写数字的识别。用笔在纸上写一个数字6,这个神经网络就能认识出这张图片是一个6,写一个数字8,它就识别出来这是个8,就这么简单。之所以说该任务简单,是因为它的标签只有0-9这10个数字的十种分类,相比于resnet等网络在ImageNet上1000个实际物品的分类(比如汽车、高楼等),确实小很多。

2025-01-19 14:01:16 1353

原创 上一次和英特尔的接触...

比如借助AI的能力制作自动化工具,说白了就是利用大模型充当一个决策者,在关键节点为你选择最优的决策,完成自动化,以此可以开发很多AI智能体,用途也是非常广泛。上一次和英特尔的接触是在听一个英特尔的研发人员讲AMX指令集的事情,原因是AI浪潮的来袭,英特尔传统的计算方式满足不了AI计算需要的算力。作为早期通用计算领域的老大哥,在AI时代,英特尔意外的被AI计算(英伟达)打的跟不上时代,产品研发跟不上,股价都腰斩了。AI计算赛道,仍然被英伟达的GPU牢牢的把控着。

2025-01-18 23:00:09 338

原创 017:推理框架为什么可以加速AI推理?

本文为合集收录,欢迎查看合集/专栏链接进行全部合集的系统学习。合集完整版会放在我的星球上,。前几节介绍了推理和训练的大致过程,以及训练过程中要用损失函数来作为评判预测值和真实值差距的标准。在很多时候,尤其是训练大型AI模型的时候,从开始训练到训练完成是要经过很长的时间。如果训练一轮消耗的时间增加一分钟,那么训练1万轮便会增加更多的时间,而实际上很多大型的模型训练次数可能要远高于这个轮次。所以说一个模型的运行性能在训练过程中会显得很重要。

2025-01-17 20:03:54 582

原创 016、什么是损失函数

损失函数是用来衡量模型预测结果与真实标签(ground truth)之间差别的函数。一般而言,损失函数会接收两个输入,一个是本轮的预测值,另一个是标签的真实值。通过一定的算法来将预测值和真实值之间的差别计算出来。损失函数的输出被定义为损失值(loss值),Loss值越大,说明预测值与真实值之间的差别越大。因此神经网络在训练时,每轮训练的目的就是降低loss值,直到将loss值降低到为零,或者接近零。如此一来就说明模型训练收敛,训练过程也就结束了,这便是损失函数的作用。

2025-01-16 10:17:14 295

原创 015: 深度学习之正向传播和反向传播

首先,在神经网络最后的输出层后面,都会有一个损失函数,该函数用来评判神经网络输出的结果与真实结果的接近程度。预测结果与真实结果越接近,那么损失函数的输出值就越低,如果损失函数输出值为0,那么说明预测结果和输出结果完全一致。假设,AI模型在第一次训练时,神经网络里的参数权重都是随机值(实际情况也是这样),那么基本上第一次的预测结果与真实结果差着十万八千里。比如真实值是10,而预测结果是1000,此时预测结果比真实结果高了很多,那我们就希望模型的参数进行调整,使得预测的结果继续变小。

2025-01-15 10:11:32 1048

原创 014:一文搞懂深度学习之推理和训练

本文为合集收录,欢迎查看合集/专栏链接进行全部合集的系统学习。合集完整版请参考。推理和训练是深度学习中两个非常重要的概念。很多初学者可能不太清楚,但是很好区分也很好理解。如果我们把一个神经网络模型比作一个人的话,那么训练过程就相当于初中、高中的学习, 而推理过程相当于去参加高考。初中高中阶段,我们通过学习大量的知识来训练自己的大脑。在去参加高考的过程中,我们已经不需要去学习新的知识,而是利用已训练好的大脑去解决问题。神经网络的推理和训练也是这个过程。

2025-01-13 21:21:04 363

原创 013:深度学习之神经网络

本文为合集收录,欢迎查看合集/专栏链接进行全部合集的系统学习。合集完整版请参考。深度学习是机器学习中重要的一个学科分支,它的特点就在于需要构建多层且“深度”的神经网络。人们在探索人工智能初期,就曾设想构建一个用数学方式来表达的模型,它可以模拟人的大脑。大脑我们都知道,有很多神经元,每个神经元之间通过突触链接。神经网络的设计就是模仿了这一结构。只不过,在数学上,将每一个神经元换成了一个个的算法,比如卷积算法。突触对于神经元的激活则换成了激活函数,比如Relu激活函数。

2025-01-12 12:07:24 1146

原创 012:一文搞懂人工智能、机器学习、深度学习的关系

本文为合集收录,欢迎查看合集/专栏链接进行全部合集的系统学习。合集完整版请参考。很多年前,我曾经听一个机器学习的公开课,在Q&A环节,一个同学问了老师一个问题“机器学习和深度学习是什么关系”?老师先是没有回答,而是反问了在场的同学,结果问了2-3个,没有人可以回答的很到位。后来老师解释“机器学习和深度学习并不是姊妹关系,而是包含与被包含的关系”。在开始进入深度学习部分的内容之前,有必要稍微解释清楚人工智能、机器学习、深度学习这三个概念,因为这三个概念,很多从业者也很难说清楚,更别提初学者了。

2025-01-12 11:56:13 687

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除