最晚的py-优快云博客

原创 jieba分词

jieba分词是一款流行的中文分词工具，支持精确模式、全模式和搜索引擎模式三种分词方式。其核心功能包括分词、词性标注、关键词提取等，广泛应用于自然语言处理任务。jieba.load_userdict("user_dict.txt") # 文件格式：每行一个词seg_list = jieba.cut("专有名词识别测试")

2026-01-03 22:27:05 279

原创 rnn词嵌入层

词嵌入层（Embedding Layer）在RNN中负责将离散的单词符号映射为连续的向量表示，将高维稀疏的one-hot编码转换为低维稠密的向量。这种表示能捕捉单词的语义和语法特征，提升模型对文本的理解能力。，供后续LSTM/GRU层处理时序依赖。词嵌入层的输出作为RNN的输入，形状为。类实现，需指定词汇表大小（

2026-01-03 22:26:48 448

池化层（Pooling Layer）是卷积神经网络（CNN）中的核心组件之一，主要用于降低特征图的空间维度，减少计算量并增强模型的平移不变性。通过保留主要特征并压缩数据，池化层能有效防止过拟合。现代网络如ResNet可能使用**步幅卷积（Strided Convolution）**替代池化层，以同时实现降维和特征提取。其中 ( R_{i,j} ) 是输入区域，( x_{p,q} ) 为输入值。将整个特征图压缩为单个值，常用于分类任务的最后一层。从输入区域中选取最大值作为输出。计算输入区域的平均值作为输出。

2026-01-02 17:14:31 281

原创 cnn卷积层详解

卷积操作通过卷积核在输入数据上滑动并计算局部区域的点积。卷积层是卷积神经网络（CNN）的核心组成部分，用于提取输入数据的局部特征。通过卷积操作，网络能够捕捉图像中的边缘、纹理等低级特征，并逐步组合为更高级的语义特征。卷积层的核心是卷积核（或滤波器），它在输入数据上滑动并计算局部区域的加权和。对于多通道输入（如RGB图像），每个卷积核会与所有输入通道进行卷积，结果求和得到一个输出通道。输出特征图的尺寸由输入尺寸、卷积核尺寸、步长（stride）和填充（padding）决定。控制卷积核滑动的步幅。

2026-01-02 17:14:12 398

原创 cnn卷积神经网络

卷积神经网络（Convolutional Neural Network, CNN）是一种专门用于处理具有网格结构数据（如图像、音频）的深度学习模型。其核心思想是通过局部感受野、权值共享和池化操作，高效提取数据的空间层次特征。降低特征图维度，增强平移不变性。通过卷积核（滤波器）在输入数据上滑动计算局部特征，生成特征图。$$\text{输出} = \max(\text{局部区域})$$通过合理设计网络结构和超参数，CNN能够高效解决复杂的视觉任务。其中 $f$ 为输入，$g$ 为卷积核。

2026-01-01 09:52:54 544

原创 rnn循环神经网络

RNN（Recurrent Neural Network）是一种处理序列数据的神经网络结构，其核心特点是具有循环连接，允许信息在网络中持久化。这种特性使其适合处理时间序列、自然语言等具有时序关系的数据。

2026-01-01 09:52:39 491

原创 ann人工神经网络

人工神经网络（Artificial Neural Network, ANN）是一种模仿生物神经元结构的计算模型，由输入层、隐藏层和输出层组成。每个神经元通过权重连接，并应用激活函数处理输入信号，用于解决分类、回归、模式识别等任务。人工神经网络是深度学习的基础框架，结合具体任务调整结构可显著提升性能。常用激活函数包括 Sigmoid、ReLU 和 Tanh。其中 $\eta$ 为学习率。

2025-12-30 13:04:07 275

原创参数初始化分类

参数初始化在深度学习中至关重要，直接影响模型训练的收敛速度和最终性能。通过生成正交矩阵初始化权重，保持前向传播中的范数稳定性，适用于RNN或需要保持长程依赖的场景。利用预训练模型（如 ImageNet）的权重作为初始值，适用于迁移学习场景。

2025-12-30 13:03:50 231

原创 xavier初始化

Xavier初始化（Glorot初始化）由Xavier Glorot和Yoshua Bengio提出，旨在解决深度神经网络中梯度消失或爆炸问题。其核心思想是根据输入和输出的神经元数量调整权重初始化的尺度，确保各层激活值的方差保持一致。其中$n_{in}$和$n_{out}$分别表示当前层的输入和输出维度。

2025-12-29 13:26:43 407

原创 kaiming初始化

$ W \sim \mathcal{N}(0, \sqrt{\frac{2}{n_{in}}}) \quad \text{或} \quad W \sim \mathcal{U}(-\sqrt{\frac{6}{n_{in}}}, \sqrt{\frac{6}{n_{in}}}) $$对于Leaky ReLU，需要引入负斜率系数 $a$： $$ W \sim \mathcal{N}(0, \sqrt{\frac{2}{(1 + a^2)n_{in}}}) $$其中 $n_{in}$ 是输入层的神经元数量。

2025-12-29 13:26:07 1266

原创参数初始化的方式

通过奇异值分解（SVD）生成正交矩阵作为初始权重，能缓解深度网络中的梯度消失问题。适用于RNN或Transformer等结构。利用预训练模型（如BERT、ResNet）的权重作为初始值，适用于迁移学习场景。将所有权重初始化为0，适用于偏置项（bias）。但全零初始化可能导致神经元对称性问题，通常需结合其他方法使用。将参数设置为固定常量（如全1初始化），常用于特定场景（如门控机制的初始偏置）。需谨慎使用以避免梯度消失或爆炸。使用随机数生成器（如高斯分布或均匀分布）为参数赋初始值。

2025-12-28 00:02:31 336

原创激活函数对比大全

激活函数为神经网络引入非线性，使模型能够学习复杂模式。不同激活函数在梯度传播、计算效率、输出范围等方面存在差异，直接影响训练效果。通过对比可见，ReLU在正区间的梯度稳定性更优，而Tanh的梯度随输入变化剧烈。

2025-12-28 00:02:16 1025

原创 softmax激活函数

softmax激活函数常用于多分类问题的输出层，将一组实数转换为概率分布。其输出值范围为(0,1)，且所有输出之和为1，适合表示类别概率。

2025-12-27 09:14:37 493

原创 relu激活函数

ReLU（Rectified Linear Unit）是一种常用的神经网络激活函数，定义为 $f(x) = \max(0, x)$。其核心思想是将所有负值输入映射为0，正值输入保持不变。因其计算简单且能缓解梯度消失问题，被广泛应用于深度学习模型。

2025-12-27 09:14:09 560

原创 tanh激活函数

tanh（双曲正切）激活函数是神经网络中常用的非线性激活函数之一，其输出范围在-1到1之间。

2025-12-26 08:29:52 762

原创 sigmoid激活函数

Sigmoid函数是一种S型曲线函数，数学表达式为：其输出范围在(0,1)之间，常用于将实数映射到概率值。

2025-12-26 08:29:31 1023

原创神经网络的定义和构建

神经网络是一种模仿生物神经元结构的计算模型，由多个相互连接的节点（神经元）组成，用于处理复杂的数据模式。它通过调整神经元之间的连接权重（参数）来学习输入与输出之间的关系，广泛应用于图像识别、自然语言处理等领域。nn.Linear(28*28, 512), # 输入层到隐藏层nn.ReLU(),nn.Linear(512, 256), # 隐藏层到隐藏层nn.ReLU(),nn.Linear(256, 10) # 输出层（10分类）

2025-12-25 14:14:47 247

原创神经网络模型

神经网络是一种模仿生物神经元结构的计算模型，由多层 interconnected nodes（神经元）组成，用于处理复杂的数据模式识别和预测任务。其核心特点包括非线性映射、自适应学习和并行处理能力。

2025-12-25 14:14:32 470

原创深度学习反向传播

反向传播（Backpropagation）是训练神经网络的核心算法，通过计算损失函数对网络参数的梯度，利用梯度下降优化参数。

2025-12-24 10:42:06 280

原创深度学习正向传播

正向传播（Forward Propagation）是神经网络中数据从输入层经过隐藏层传递到输出层的过程。每一层的神经元接收前一层输出的加权和，通过激活函数生成当前层的输出，最终得到预测结果。数据逐层传递，权重和偏置参与线性变换。激活函数决定神经元的输出是否被激活。输出层的设计取决于任务类型（如分类用Softmax，回归用线性输出）。

2025-12-24 10:41:53 247

原创自动微分模块

自动微分（Automatic Differentiation, AD）是一种计算导数的数值方法，通过链式法则分解复杂函数为基本运算的组合，并记录计算过程（正向或反向模式）。与符号微分和数值微分相比，自动微分兼具高效性和精确性，广泛应用于深度学习框架（如TensorFlow、PyTorch）的梯度计算。将数学表达式表示为有向无环图（DAG），节点代表变量或操作，边代表依赖关系。通过合理选择正向或反向模式，并利用计算图优化，自动微分模块能够高效处理大规模复杂模型的梯度计算需求。模块通过动态图实现。

2025-12-23 10:05:29 466

原创张量的索引操作

张量索引操作允许从多维数组中提取特定元素或子集。在PyTorch或NumPy中，索引语法与Python列表类似，但支持更复杂的多维操作。：若需保留原张量，先复制数据再操作。布尔掩码索引：通过条件筛选元素。确保索引维度匹配：若张量形状为。广播规则需注意：高级索引中，会因形状不匹配报错，需改为。

2025-12-23 10:05:06 180

原创张量的形状和维度操作

张量（Tensor）是多维数组的泛化形式，广泛用于深度学习框架（如PyTorch、TensorFlow）中。形状（Shape）和维度（Dim）是张量的核心属性，以下介绍常见操作。形状不同的张量进行运算时，会自动触发广播规则：从右向左对齐维度，缺失或长度为1的维度会被扩展。方法获取张量的形状，返回一个元组表示各维度大小。调整张量形状，元素总数需保持一致。增加维度（长度为1的维度），拼接张量，需注意维度匹配。复制张量数据以扩展形状。移除长度为1的维度。

2025-12-22 09:10:22 1635

原创张量的拼接操作

张量拼接是将多个张量沿指定维度连接成一个更大张量的操作。

2025-12-22 09:08:54 237

原创张量的运算函数

张量运算在深度学习和科学计算中至关重要。常见的张量运算函数包括加法、减法、乘法和除法。这些运算通常按元素进行，要求参与运算的张量具有相同的形状。广播机制允许不同形状的张量进行运算，较小的张量会自动扩展以匹配较大张量的形状。缩减操作沿着指定维度对张量进行汇总计算，包括求和、求均值、最大值和最小值等。矩阵乘法要求第一个张量的最后一维与第二个张量的倒数第二维匹配。高级索引允许复杂的数据选择和修改，包括布尔索引和整数数组索引。变形操作改变张量的形状而不改变其数据，包括。矩阵乘法是深度学习中的核心操作，使用。

2025-12-21 10:54:49 154

空空如也

空空如也