自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(133)
  • 资源 (1)
  • 收藏
  • 关注

原创 用deepseek学大模型08-用deepseek解读deepseek

DeepSeek V3和R1分别代表了通用大模型与专用推理模型的技术巅峰。V3通过MoE架构和FP8训练实现高效多任务处理,而R1以强化学习突破复杂推理瓶颈。两者结合,既满足大规模商业应用需求,又为高难度学术问题提供解决方案,标志着AI模型从“规模竞赛”向“效率与能力并重”的转型。未来,其开源策略和低成本优势或进一步加速AI技术的普及与创新。

2025-02-20 20:12:24 1039

原创 用deepseek学大模型08-看代码理解transformer架构

该架构通过并行计算实现比RNN快5-10倍的训练速度,在768维模型下单层参数量约7M。最新改进如FlashAttention-2已实现40%的训练加速。模型,并阅读原始论文《Attention Is All You Need》深入理解设计细节。维空间中,通过向量投影计算语义相似度,实现特征空间的信息聚合。:允许模型在不同子空间学习相关信息,类似CNN的多通道设计。

2025-02-20 12:04:33 1188

原创 用deepseek学大模型08-看代码理解注意力机制

嗯,用户问的是“入门注意力机制”,我需要结合我搜索到的资料来回答这个问题。首先,我得理清楚注意力机制的基本概念和原理,然后看看有哪些不同类型的注意力机制,以及它们的应用场景。根据,注意力机制的本质是对输入信息进行有选择性的处理,通过Query、Key和Value来计算权重,然后加权求和得到注意力输出。这应该作为基础原理部分。提到注意力机制通过查询向量q和评分函数s来选择相关信息,公式里用了softmax归一化,这个也可以用来解释计算过程。

2025-02-19 16:21:38 641

原创 用deepseek学大模型08-长短时记忆网络 (LSTM)

deepseek.com 从入门到精通长短时记忆网络(LSTM),着重介绍的目标函数,损失函数,梯度下降 标量和矩阵形式的数学推导,pytorch真实能跑的代码案例以及模型,数据, 模型应用场景和优缺点,及如何改进解决及改进方法数据推导。

2025-02-18 10:09:51 1326

原创 用deepseek学大模型08-循环神经网络

通过上述步骤,您可系统掌握 RNN 的核心理论、实现及优化方法。控制历史信息保留,避免传统 RNN 的连乘梯度,缓解消失问题。,导致梯度消失/爆炸。LSTM 通过细胞状态。

2025-02-18 08:46:05 956

原创 用deepseek学大模型08-cnn残差网络

特性普通CNNResNet最大有效深度~20层>1000层梯度传播稳定性易消失/爆炸通过跳跃连接稳定训练误差随深度变化先降后升(退化)持续下降参数量(同精度)较高更低(瓶颈结构)这些设计使得ResNet成为计算机视觉任务的基础架构,广泛应用于图像分类、目标检测等领域。return outnn.ReLU()return x# 数据预处理])# 加载数据集# 创建数据加载器# 初始化模型和优化器# 训练循环。

2025-02-18 08:24:22 1544

原创 用deepseek学大模型08-卷积神经网络(CNN)

从入门到精通卷积神经网络(CNN),着重介绍的目标函数,损失函数,梯度下降 标量和矩阵形式的数学推导,pytorch真实能跑的代码案例以及模型,数据,预测结果的可视化展示, 模型应用场景和优缺点,及如何改进解决及改进方法数据推导。

2025-02-17 20:22:41 1577 1

原创 用deepseek学大模型07-激活函数和损失函数

激活函数输出范围梯度特性计算成本适用场景Sigmoid(0,1)最大0.25高二分类输出层Tanh(-1,1)最大1.0高RNN隐藏层ReLU[0, +∞)0或1低通用隐藏层Leaky ReLU(-∞, +∞)0.01或1低避免神经元死亡Softmax[0,1] (概率)依赖输入分布高多分类输出层。

2025-02-17 14:09:09 714

原创 用deepseek学大模型06-前馈神经网络(FFNN)

deepseek.com:前馈神经网络的目标函数,损失函数,梯度下降 标量和矩阵形式的数学推导,pytorch真实能跑的代码案例以及模型图在tensorboard中的展示, 分析应用场景和优缺点,及如何改进解决及改进方法数据推导。

2025-02-17 11:32:15 932

原创 用deepseek学大模型05逻辑回归

逻辑回归通过概率建模解决二分类问题,代码简洁高效,但需注意其线性假设的限制。通过正则化、特征工程等手段可显著提升模型性能。

2025-02-16 17:14:44 1142

原创 用deepseek学大模型04-模型可视化与数据可视化

deepseek.com: pytorch可视化工具 生成神经网络图。

2025-02-16 16:25:18 1535

原创 用deepseek学大模型04-机器学习模型出世-导论7问

嗯,用户的问题是关于如何编写一个包含各种模型详细介绍和应用场景的机器学习与深度学习导论。我需要结合我搜索到的资料来回答这个问题,确保引用正确的文献ID。首先,我应该先理清机器学习与深度学习的基本概念,然后分门别类地介绍不同的模型,每个模型的结构、特点以及应用场景。根据,深度学习是机器学习的一个子领域,属于表示学习方法,通过多层非线性模块自动学习数据的层次化特征。这可以作为导论的起始部分,解释两者的关系。

2025-02-16 11:28:25 931

原创 用deepseek学大模型05-线性回归

线性回归通过最小化预测值与真实值的平方误差,求解参数。梯度下降适用于大规模数据,正规方程适合小规模且特征数少的情况。理解模型假设和评估方法对实际应用至关重要。

2025-02-15 21:13:29 1096

原创 用deepseek学大模型04-机器学习建模过程

设置网络层数、激活函数(如ReLU、Sigmoid)、Dropout率(防止过拟合)、优化器(如Adam、SGD)等。

2025-02-15 17:37:16 1306

原创 用deepseek学大模型04-模型与网络

目前已经学完深度学习的数学基础,开始学习各种 模型和网络阶段,给出一个从简单到入门的,层层递进的学习路线。并给出学习每种模型需要的前置知识。增加注意力机制,bert, 大模型,gpt, transformer, MOE等流行的模型。另外,前置知识详细一点,加上需要前置学习的模型。并分析每种模型的使用场景,优缺点。

2025-02-14 19:24:14 889

原创 用deepseek学大模型02-数学基础 微积分

导数:衡量单变量函数变化率。偏导数与梯度:多变量函数的局部变化率与全局方向。链式法则:反向传播的数学基础,逐层计算梯度。梯度下降法:利用负梯度方向更新参数,最小化损失函数。通过理解这些概念并实践代码示例,可掌握深度学习优化算法的数学本质。

2025-02-14 17:02:30 916

原创 用deepseek学大模型03-数学基础 概率论 最大似然估计(MLE)最大后验估计(MAP)

另外,提到的Adam优化算法虽然主要讲优化方法,但可以结合MLE和MAP的目标函数进行参数更新,例如在训练中结合正则化项(如权重衰减)时,实际是在进行MAP估计。好的,我现在需要回答关于最大似然估计(MLE)和最大后验估计(MAP)的问题,同时说明它们在深度学习中的应用并举例。总结结构:定义MLE和MAP,区别与联系(频率vs贝叶斯,先验的作用),在深度学习中的应用(损失函数对应MLE,正则化对应MAP),具体例子(交叉熵/MSE,L2正则化)。:MAP是贝叶斯学派的方法,将参数视为随机变量,结合。

2025-02-13 20:48:03 1450

原创 用deepseek学大模型03-数学基础 概率论 条件概率 全概率公式 贝叶斯定理

通过以上实例可以看出,条件概率和贝叶斯定理在实际问题中具有广泛的应用价值。医学诊断:根据患者的症状和检测结果,计算患病的可能性。自然语言处理:根据文本特征和语料库,预测文本的主题或情感。机器学习:朴素贝叶斯分类器利用贝叶斯定理进行分类预测。学习这些概念时,建议结合具体问题进行练习,并逐步深入理解其背后的数学原理和应用场景。希望这个入门级教程能帮助你更好地掌握条件概率与贝叶斯定理!

2025-02-13 10:48:27 1023

原创 用deepseek学大模型03-数学基础 概率论 随机变量 概率分布

概率0:事件不可能发生。1:事件必然发生。0.5:事件有一半的可能性发生。概率用于量化不确定性,是机器学习和深度学习的核心概念之一。随机变量离散随机变量:取有限或可数无限个值(如掷骰子的结果)。连续随机变量:取无限不可数的值(如某地区的温度)。随机变量通常用大写字母表示(如XXX),其具体取值用小写字母表示(如xxx概率:描述事件发生的可能性。随机变量:将随机事件映射为数值的函数。常用分布:深度学习中使用多种分布(如正态分布、伯努利分布、多项分布等)来描述数据和模型的随机性。

2025-02-12 17:31:46 893

原创 用deepseek学大模型03-数学基础 概率论

提到花书学习笔记,涵盖了概率论、信息论和数理统计的基础,包括概率分布、条件概率、贝叶斯规则、最大似然估计等。还要注意证据中的课程推荐,比如提到的UCSD课程,包含TensorFlow/PyTorch实践,这可能作为学习资源推荐给用户。用户希望得到一个完整的教程和实例,所以我要从我搜索到的资料中整理出相关的知识点和学习路径,并结合实例说明。https://metaso.cn/s/Jp0OU9w 提示词:我正在学习深度学习相关的数学知识,学到了概率论与统计学部分,给我一个入门级的完整教程和实例。

2025-02-12 15:15:58 639

原创 用deepseek学大模型02-数学基础 奇异值分解(Singular Value Decomposition,简称SVD)

奇异值分解(SVD)是一种强大的线性代数工具,不仅在理论上有重要意义,还在实际应用中展现了广泛的应用价值。通过学习SVD,可以更好地理解矩阵的性质及其在深度学习中的作用。希望以上内容能帮助你掌握SVD的基础知识,并理解其在深度学习中的重要性。SVD(奇异值分解)是一种重要的降维技术,广泛应用于多个领域,包括推荐系统、图像处理、文本挖掘等。SVD作为一种经典的降维技术,因其简单性和高效性,在多个领域得到了广泛应用。它不仅可以减少数据的维度,还能保留大部分重要信息,从而提高算法的运行效率和结果的可解释性。

2025-02-12 11:03:15 1175

原创 用deepseek学大模型02-数学基础 特征值特征向量

通过这两个例题,我们学习了如何计算3x3矩阵的行列式和逆矩阵。这些计算对于理解线性代数中的重要概念至关重要。如果有任何问题或需要进一步的讨论,请告知我!特征值和特征向量是描述线性变换核心性质的数学工具。对于n阶方阵A,若存在非零向量x⃗\vec{x}x和标量λ\lambdaλAx⃗λx⃗Axλx则称λ\lambdaλ为矩阵A的特征值x⃗\vec{x}x为对应的特征向量。该定义也可推广到线性变换fV→VfV→V上。

2025-02-11 17:15:40 665

原创 用deepseek学大模型02-数学基础

线性代数概率论与统计学微积分优化理论分阶段学习工具辅助实践资源推荐分享:秘塔AI搜索

2025-02-10 19:38:40 484

原创 用大模型学大模型01-制定学习计划

1.1 数学基础1.2 编程基础2.1 监督学习2.2 无监督学习2.3 经典资源3.1 神经网络基础3.2 框架实践4.1 词嵌入与序列模型4.2 实践项目5.1 Transformer架构5.2 预训练模型6.1 训练全流程6.2 模型压缩7.1 垂直领域应用7.2 行业案例8.1 前沿方向8.2 社区与资源。

2025-02-10 16:57:30 1663

原创 Deepseek提示词技巧

Deepseek提示词技巧

2025-02-10 14:37:33 1160

原创 C++资料

InterviewGuide首页 - 八股精Releases · halfrost/LeetCode-Go · GitHubGitHub - GrindGold/CppGuide: 「C/C++学习+面试指南」一份涵盖大部分 C++ 程序员所需要掌握的知识。入门、进阶、深入、校招、社招,准备 C++ 学习& 面试,首选 CppGuide!https://zhuanlan.zhihu.com/p/470874027力扣 (LeetCode) 全球极客挚爱的技术成长平台GitHub - huihut/inter

2025-01-25 22:23:28 386

原创 从0攒一个分布大数据/人工智能/数据库 处理引擎

从0攒一个分布大数据/人工智能/数据库 处理引擎

2024-11-01 17:03:22 370 1

原创 大数据系统调优:从DAG到单机

大数据系统调优

2024-09-23 22:10:39 390

原创 spark源码-代码分层-local模式

spark 源码阅读,代码层次分析

2024-09-23 17:03:25 288

原创 机器学习入门最小化知识储备

机器学习入门最小化知识储备

2024-08-06 20:41:00 133

原创 刷题哇(WA)哇哇到吐?看这篇防哇(WA)指南,立即AC

1. 多组用例还是一组, EOF 2. 越界问题:Long long 3. 倍增表构建边界 st[i][p] = std::max(st[i][p-1], st[i+pows[p-1]][p-1]); 注意三个p-1 查询时注意+1:std::max(st[L][p], st[R-pows[p]+1][p]); 4. 注意二维数组维数含义弄反f[MAXN] 5. 前向星链表中,注意head和edges大小不要弄返 6. 倍增表注意下表开始是从0还是1. 普通倍增是从左闭又开。 树上倍增是f[i][

2024-01-30 22:22:34 363

原创 使用Element-Plus 加载style

chrome扩展开发插件基于vue3、ts、Element Plus、Webpack5、axios、less开发支持content快速调用chrome对象及axios 详看 pages/content/app.vue开箱即用chrome插件。

2024-01-21 22:25:11 880

原创 ANTLR4

下载antlr4 jar包。

2024-01-05 19:58:34 700

原创 LLVM编译安装

LLVM编译安装。

2023-09-03 21:51:06 1037

原创 本地docker registry 搭建

【代码】本地docker registry 搭建。

2023-08-28 21:52:17 1186

原创 duckdb 源码分析之select执行流程

duckdb 源码分析之select执行流程

2023-08-13 22:16:16 1338

原创 下一代服务架构:单体架构-->分布式架构-->微服务(DDD)-->软件定义架构(SDF with GraphEngine)

下一代服务架构:单体架构-->分布式架构-->微服务(DDD)-->软件定义架构(SDF with GraphEngine)

2023-08-13 15:01:00 2308 2

原创 如何阅读大型软件源码

阅读大型软件源码是一项复杂的任务,需要耐心、技巧和经验。下面是几种方法论建议,帮助您更好地阅读和理解大型软件源代码。

2023-05-19 22:41:34 3720

原创 阿里havenask之indexlib

indexlib是其中核心的索引库。本文将用脑图详解其设计。

2023-05-19 15:54:02 2026 6

原创 图解radix-tree

2023-05-19 15:17:00 179

kubernets centos ansible playbook 安装 国内镜像源

kubernets centos ansible playbook 安装 国内镜像源

2022-03-02

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除