自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(510)
  • 收藏
  • 关注

原创 RNN和残差网络模型的差异

(如ImageNet冠军模型)(如时间序列,文本,语音)(机器翻译,文本生成)(同一层内卷积独立)

2025-12-02 23:42:00 246

原创 Transformer模型demo实现

【代码】Transformer模型demo实现。

2025-12-02 19:36:06 80

原创 MLP多层感知机

下一层(可以是另一个隐藏层或输出层)用PyTorch实现一个简单的MLP。(面积、卧室数,房龄,位置,学区)(如最常用的Adam或SGD)MLP的工作流程:前向传播。二 MLP的核心组成部分。(如识别手写数字0-9)(如隐藏层大小,学习率)(或使用线形激活函数)神经元的详细工作原理。(MNIST数据集)(如CNN,RNN)

2025-11-20 09:42:25 526

原创 x264 cabac编码一个bit

x264。

2025-11-13 19:38:51 190

原创 cabac 二进制编码实现

【代码】cabac 二进制编码实现。

2025-11-13 18:58:45 93

原创 实现一个单链表逆序

【代码】实现一个单链表逆序。

2025-11-12 22:37:03 118

原创 H266 vs VVC标准之仿射运动模型

近年来随着短视频,在线会议等移动视频应用的爆发式普及,全球的视频信息需求快速增长,业界普遍感受到的宽带与存储的家u大压力,极度渴望高性能的视频压缩算法,仍然无法满足业界日益高涨的需求。在视频编码的早期研究当中,人们已经发现平动运动模型并不能有效表示转动,缩放等复杂运动。整体仿射变换,局部仿射变换等方法,试图在视频编码过程中引入仿射运动模型以提高帧间预测的编码效率。尽管学术界对视频编码中仿射运动模型的研究,在很长一段时间内仿射运动模型没能走进视频编码标准。重点介绍VVC中的仿射运动模型技术。

2025-11-10 17:21:36 337

原创 AV1 vs H266仿射运动详细说明

三 H266/VVC中的仿射运动预测。(如64x64,32x32等)二 AV1中的仿射运动预测。(例如4x4或8x8)

2025-11-07 14:29:07 256

原创 H265 vs AV1 vs H266 rdoq对比

下面的表格概括了H265/HEVC, AV1和H266 三个标准在核心技术和复杂度上的整体差异,有助于理解实现高效编码(包括使用RDOQ之类工具)的不同路径。

2025-11-05 16:54:09 337

原创 H265/AV1/H266 帧间搜索对比

在H265(HEVC),AV1和H266(VVC) 这三种主流视频编码标准中,帧间预测技术都在不断演进,核心目标是在提升压缩效率和控制编码复杂度之间取得更好的平衡。128x128或64x64)(四叉,二叉,T型三分等)

2025-11-04 19:49:59 502

原创 H265 vs AV1 vs H266帧内块拷贝差异

(包括去块效应滤波器,约束方向增强滤波器和环路恢复滤波器)二 AV1帧内块拷贝和H266的帧内块拷贝差异。(如64x32,32x64,16x64等)屏幕内容编码(如PPT,屏幕共享)(如64x64, 32x32)128x128或64x64)128x128或64x64)(产生L形等不规则形状)(且满足特定几何关系)

2025-11-04 11:49:28 318

原创 H265 vs av1 vs H266 变换编码差异

多种核心变换(DCT,ADST,Flipped ADST, Identity)矩形:支持2:1/1:2矩形,最高达64x32,32x64。高度自适应:编码器可以为每个块独立选择水平和垂直方向的。正方形4x4到32x32矩形:如4x8,16x32等。一 变换编码差异h265 vs av1。变换编码差异h265 vs h266。更灵活:正方形:4x4到64x64。甚至支持4x16,16x4等。(如32x64,64x32)基于DCT-II的整数变换。

2025-11-04 10:54:20 356

原创 h265 vs av1 vs h266帧内预测差异

这种方法能有效探测并利用图像中的边缘信息,对于计算机生成图形(如软件界面,文字),尤其有效。相比之下,AV1 丰富的划分方式(尤其是T型三分区等) 能更精确的贴合图像中物体的实际轮廓,这是其提升压缩效率的重要基础。而AV1不仅将方向预测模式从8个(VP9)大幅扩展到56个,以更精细的角度捕捉边缘,还引入了多种全新的智能预测模式。上述表格概括了两者在技术路线上的显著差异,下面是一些关键的细节补充,能帮助更深入的理解。划分方式更灵活,支持四分区、三分区(T型),二分区等,允许矩形划分。

2025-11-03 15:27:15 671

原创 优化算法--深度学习中的优化挑战

本章将关注优化算法在最小化目标函数方面的性能而不是模型的泛化误差。在31节中我们区分了优化问题中的解析解和数值解。在深度学习中大多数目标函数都很复杂没有解析解我们必须使用数值优化算法本章中的优化算法都属于此类别。深度学习优化在许多挑战其中最令人烦恼的局部极小值和梯度消失。1局部极小值对于任何目标函数fx)如果在x点对应的fx)值。

2025-10-29 23:41:34 441

原创 Bahdanau注意力

(剔除在注意力池中的填充词元)

2025-10-16 23:31:08 454

原创 transformer-注意力评分函数

batch_size, 1, 键-值对数,num_hiddens)batch_size, 查询数,1,num_hidden)batch_size, 查询数,键-值对数)

2025-10-16 00:04:54 477

原创 注意力机制--Nadaraya-Watson核回归

(标记为Truth)(查询数,键值对数)

2025-10-15 00:23:33 843

原创 注意力机制-10.1.3注意力可视化

下面使用一个简单的例子进行演示,在本例中,仅当查询和键相同时,注意力权重为1,否则为0.受试者使用非自主性和自主性提示有选择地引导注意力,前者基于突出性,后者则依赖意识。注意力机制通过注意力汇聚使得选择偏向于值,其中包含查询和键,键和值是成对的。注意力机制与全连接层或者汇聚层区别源于增加的自主性展示。由于包含自主性提示,注意力机制与全连接层或汇聚层不同。(要现实的行数,要现实的列数,查询数,键数)人类的注意力是有限的,有价值的和稀缺的资源。可视化查询和键之间的注意力权重是可行的。

2025-10-13 23:38:49 255

原创 Transformer Encoder Attention原理

本文详细解析了Transformer模型中Encoder端的Attention机制。通过线性变换将输入词向量转换为Query,Key和Value向量,计算Query与所有Key的点积并经过softmax得到权重,最后用这些权重对Value向量加权求和。这一过程使每个词能够关注输入序列中的其他词,捕捉词与词之间的关系,二 在Transformer中的具体位置。(因为多了一个编码器-解码器注意力子层)Transformer 信息的关联大师。

2025-09-26 18:02:35 660

原创 9.7.3 损失函数

解码器预测了输出词元的概率分布类似于语言模型可以使用softmax来获得分布并通过计算交叉墒损失函数来进行优化。回想一下95节中特定的填充词元被添加到序列的末尾因此不同长度的序列可以以相同形状的小批量加载。但是我们应该将填充词元的预测在损失函数的计算中剔除。我们可以使用下面的sequencemask函数通过零值化屏蔽不想管的。

2025-09-17 23:55:02 910

原创 9.7 序列到序列学习

正如我们在9.5节中看到的,机器翻译中的输入序列和输出序列都是长度可变的,为了解决这类问题,我们在9.6节中设计了一个通用的编码器-解码器架构,在本节中,

2025-09-17 00:13:07 878

原创 9.6 编码器-解码器架构

我们在95节中所讨论的机器翻译时序列转换模型的一个核心问题其输入和输出都是长度可变的序列。为了处理这种类型的输入和输出我们可以设计一个包含两个主要组件的架构。第一个组件是一个编码器接收一个长度可变的序列作为输入并将其转换为具有固定形状的编码状态第二个组件时解码器将固定形状的编码状态映射到长度可变的序列。这被称为编码器解码器架构。

2025-09-16 00:30:52 374

原创 9.5 机器翻译与数据集

注意,每个文本序列可以是一个句子,也可以是包含多个句子的一个段落,在这个将英语翻译成语法的机器翻译问题中,英语是源语言,法语是目标语言。本书的关注点是神经网络机器翻译方法,强调的是端到端的学习,与8.3 节中的语料库是单一语言的语言模型问题不同,机器翻译的数据集是由源语言和目标语言的文本序列对组成的,因此,我们需要一种完全不同的方法来预处理机器翻译数据集,而不是复用语言模型的预处理程序,我们看一下如何将预处理后的数据加载到小批量中用于训练。'X的有效长度', X_valid_len)用空格替换不间断空格。

2025-09-15 23:52:05 545

原创 9.4 双向循环神经网络

我们遗忘假定的目标是在给定观测的情况下在时间序列的上下文中或者在语言模型的上下文中对下一个输出进行建模虽然这是一个典型场景但不是唯一的可能发生什么其他情况考虑以下3个在文本序列中填空的任务。根据可获得的信息我们可以分别用不同的词填空很明显每个短语的下文传达了重要信息而这些信息关乎选择哪个词来填空无法利用这一点的序列模型将在相关任务上面。

2025-09-11 01:09:09 330

原创 9.3深度循环神经网络

目前为止只讨论了具有一个单向隐藏层的循环神经网络其中隐变量和观测值域具体的函数形式的交互方式是相当随意的。只要交互类型建模具有足够的灵活性不是一个单问题。然而对一个单层来说可能具有相当的挑战性。之前的线性模型中我们通过添加更多的层来解决这个问题而在循环神经网络中我们首先需要确定如何添加更多的层以及在哪里添加额外的非线性层。

2025-09-08 23:56:07 369

原创 9.2 长短期记忆网络

隐变量模型存在着长期信息保存的短期输入缺失的问题。解决这一问题的最早方法之一是长短期记忆网络LSTM有许多与门控循环单元一样的属性。有趣的是长短期记忆网络的设计比门控循环单元稍微复杂一些却比门控循环单元早出现了近20年。921门控记忆元长短期记忆网络的设计灵感来自计算机的逻辑门长短期记忆网络引入了记忆元或简称为单元cell。有些文献。

2025-09-08 00:38:52 607

原创 现代循环神经网络

语言模型揭示了序列学习能力的冰山一角,在各种序列学习问题中,如果自动语音识别,文本到语音的转换和机器翻译,输入和输出都是的任意长度的序列,为了阐述如何拟合这种类型的数据,我们将以机器翻译为例介绍基于循环神经网络的编码器-解码器 结构,并用来生成序列。我们从构建这些门控开始,图9-1描述了门控循环单元中的重置门和更新门的输入,输入由当前时间步的输入和前一个时间步的隐状态给出,两个门的前一个时间步的隐状态给出,两个门的输出由使用有sigmoid 激活函数的两个全连接层给出。9.1.1 门控隐状态。

2025-09-07 02:28:12 909

原创 SVT-AV1编码器中实现WPP依赖管理核心调度

self_assigned == TRUE的情况,会创建一个新的任务并放入队列,通知其他工作线程有新的工作可用,这是一种高效的工作窃取Work Stealing和协同机制。1 依赖管理,此函数的核心是管理图像分段间的空间依赖关系,在视频编码中,处理一个编码块通常需要上方,左上方和右上方的块信息。//segmentInOutIndex 输入输出参数,输入时可能是旧的段索引,输出时,如果分配成功,被设置为分配段的索引。//递减右邻居段的依赖计数器,每个段初始时间能有依赖,例如依赖于左上和上方的段。

2025-09-05 19:15:42 917

原创 8.7 通过时间反向传播

我们已经反复提到梯度爆炸或者梯度消失以及需要对循环神经网络分离梯度在85节中我们在序列上调用了detach函数,为了能够快速构建模型并了解其工作原理上面所说的这些概念需要进行充分的解释。更深入的探讨序列模型反向传播的细节以及相关的数学原理。当我们首次实现循环神经网络时遇到了梯度爆炸的问题如果做了练习题就会发现梯度截断对于确保模型收敛。

2025-09-05 00:05:35 627

原创 SVT-AV1 svt_aom_motion_estimation_kernel 函数分析

/ 预取提示级别:_MM_HINT_T0(L1), _MM_HINT_T1(L2), _MM_HINT_T2(L3), _MM_HINT_NTA(非时间局部性)// 计算1/4分辨率图片中对应位置的缓冲区索引(坐标右移1位即除以2)// 设置1/4和1/16分辨率的ME输入缓冲区,已经过滤或抽取。// 获取1/16分辨率下采样图片指针,用于分层运动估计的最粗层。// 加载1/16分辨率抽取的超级块到1/16中间超级块缓冲区。// 获取1/4分辨率下采样图片指针,用于分层运动估计的中层。

2025-09-04 22:31:58 727

原创 AV1 OBU Frame解析

字段名bit数意义1解码器读取该帧的帧头解析frametoshowmapidx字段确定要显示的是DFB中的第几帧根据frametoshowmapidx的索引值在DFB中找到对应的已解码帧。直接将该帧送出以供显示而不需要对当前OBU的负载进行常规的解码过程frame_type1指定帧的类型如KYEFRAME或。

2025-09-03 19:13:29 508

原创 8.6 循环神经网络简洁实现

(时间步数 不等于批量大小,隐单元数)(时间步数x批量大小,词表大小)

2025-09-03 00:09:05 531

原创 AV1 HEADERS详解

使用简化头可以节省比特,

2025-09-02 23:15:52 733

原创 8.5 循环神经网络的从零开始实现

简而言之,独热编码时将每个索引映射为相互不同的单位向量,假设词表中不同词元的数量为N,词元索引的范围为0~N-1 ,如果词元的索引时整数l,那么我们将创建一个长度为N的全0向量,并将第i个元素设置为1,此变量时原始词元的一个独热向量,索引为0和2的独热向量如下所示。我们初始化循环神经网络模型的参数,隐单元数num_hiddens是一个可调的超参数,当训练语言模型时,输入和输出来自相同的词表,我们具有相同的维度,即词表的大小。和8.3节中介绍的一样。#inputs 的形状为(时间步数,批量大小,词表大小)

2025-09-02 00:01:52 541

原创 8.4 循环神经网络

我们介绍了n元语法模型单词x在时间步t的条件概率仅取决于前面n1个单词对于时间步tn-1)之前的单词如果我们想将其可能产生的影响合并到Xt上需要增大n然而模型参数的数量也会随之呈现指数级增长因为词表V需要存储V|个数字因此与其将P模型化不如使用隐变量存储了到时间步t1的序列信息我们可以基于当前的输入Xt和之前的隐藏状态。

2025-08-31 01:10:26 294

原创 AV1编码资源可用性模式

对于使用超分辨率模式的帧,UpscaleWidth 时超分辨率之后的帧宽度。

2025-08-30 16:48:03 888

原创 8.3.3 自然语言统计

我们看看如果在真实数据上进行自然语言统计根据82介绍的时光机器数据集构建词表打印前10个最常用的。importrandomimporttorchfromd2limporttorchasd2ltokensd2ltokenize因为每个文本行不一定是一个句子或者一个段落所以我们把所有文本链接到。

2025-08-30 02:22:22 756

原创 Pytorch超分辨率模型实现与详细解释

"不支持的数据集:{dataset_name}")(与训练时间相同的方法)

2025-08-29 18:07:21 784

原创 8.3 语言模型和数据集

P只需要一次提取一个词元XtP一个理想的语言模型就能够基于模型本身生成自然文本。使用打字机完全不同的是从这样的模型中提取的文本都将作为自然语言来传递只需要基于前面的对话片断中的文本。就足以生成一段有意义的对话显然我们离设计出这样的系统还很遥远因为它需要理解文本而不仅仅是生成语法上合理的内容。语言模型依然是非常有用的短语t。

2025-08-29 01:48:12 456

原创 pytorch文本预处理

对于序列数据处理问题81节中评估了所需要的统计工具和预测时面临的挑战这样的数据存在许多形式文本时最常见的例子一篇文章可以呗简单的看作一串单词序列甚至一串字符序列我们将解析文本的常见预处理步骤1将文本座位字符串加载到内存中2将字符串拆分为词元3建立一个词表将拆分的词元映射到数字索引4将文本转换为数字索引序列方面模型操作imp。

2025-08-28 00:56:38 646

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除