不想化妆-优快云博客

原创深度学习计算 | 层和块

要想直观地了解块是如何工作的，最简单的方法就是自己实现一个。在实现我们自定义块之前，我们简要总结一下每个块必须提供的基本功能。将输入数据作为其前向传播函数的参数。通过前向传播函数来生成输出。请注意，输出的形状可能与输入的形状不同。例如，我们上面模型中的第一个全连接的层接收一个20维的输入，但是返回一个维度为256的输出。计算其输出关于输入的梯度，可通过其反向传播函数进行访问。通常这是自动发生的。存储和访问前向传播计算所需的参数。根据需要初始化模型参数。

2025-02-14 10:48:00 1820

原创深度学习计算 | 参数管理

有时，深度学习框架没有提供我们需要的初始化方法。在下面的例子中，我们使用以下的分布为任意权重参数wwww∼U510可能性140可能性12U−10−5可能性14(1)U(5, 10) & \text{ 可能性 } \frac{1}{4} \\0 & \text{ 可能性 } \frac{1}{2} \\U(-10, -5) & \text{ 可能性 } \frac{1}{4}w∼⎩⎨⎧U5100U−10−5。

2025-02-14 10:47:26 699

原创深度学习计算 | 延后初始化&自定义层

深度学习成功背后的一个因素是神经网络的灵活性：我们可以用创造性的方式组合不同的层，从而设计出适用于各种任务的架构。例如，研究人员发明了专门用于处理图像、文本、序列数据和执行动态规划的层。有时我们会遇到或要自己发明一个现在在深度学习框架中还不存在的层。在这些情况下，必须构建自定义层。本节将展示如何构建自定义层。

2025-02-14 10:46:45 1936

原创 DeepSeek本地部署

2025年1月，中国春节期间，DeepSeek爆火，称为全球最炙手可热的大模型。DeepSeek一路 “狂飙”，在美国科技界和美股市场掀起惊涛骇浪，1月27日，美国三大股指开盘即暴跌，英伟达、微软、谷歌母公司Alphabet、Meta等美国主要科技股均遭遇股市地震，其中英伟达跌近17%，单日市值蒸发约6000亿美元，创美股最高纪录。这里以DeepSeek为例介绍在自己本地计算机上部署大模型的方法。操作过程中，遇到很多错误，借助于豆包大模型，把每个错误都解决了，顺利完成了安装过程。

2025-02-14 10:25:03 1689 1

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 深度学习计算 | 层和块

原创 深度学习计算 | 参数管理

原创 深度学习计算 | 延后初始化&自定义层

原创 DeepSeek本地部署

空空如也

空空如也

原创深度学习计算 | 层和块

原创深度学习计算 | 参数管理

原创深度学习计算 | 延后初始化&自定义层