自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(65)
  • 收藏
  • 关注

原创 测试序列(GPT生成仅供参考)

WVGA和WQVGA都是不同的分辨率标准,主要用于低分辨率显示设备,WVGA适用于智能手机和中小型设备,而WQVGA则更为低端,适合早期智能设备。Class F包含的是特殊技术演示视频,用于测试编码算法在处理动画、文字、图形等特殊内容时的表现。Class TGM包含的图形、桌面和控制台应用场景,用于测试视频编码在处理计算机桌面、图形和动态UI时的效率。类似JVET-EE2.3。

2025-12-25 15:33:54 703

原创 JVET-AJ0082

在进入 MM-EIP 之前,先简要回顾原始的使用一个 15-tap 线性滤波器对邻近已重建像素加权求和滤波器系数通过最小二乘法拟合得到预测按对角线顺序生成支持两种模式:本地推导:基于当前块周围样本训练滤波器EIP Merge 模式:复用前序块的滤波器参数虽然 EIP 能有效建模局部纹理,但使用单一滤波器难以适应复杂多变的图像结构(如边缘与平坦区域共存)。为此,本提案提出MM-EIP:为不同上下文动态选择不同的滤波器模型。

2025-12-19 17:11:18 269

原创 Linux MD5

目的命令查看单个文件 MD5仅输出哈希值批量处理保存校验和校验已存文件脚本中调用使用 Python 或 Shell 函数封装📌 提示:你还可以将此命令集成到.sh脚本中,实现一键批量校验多个实验输出的 YUV 文件。

2025-12-18 11:35:57 242

原创 JVET-AL0106

本提案在现有模式基础上,引入一种新的子模式:✅该方法通过一个从帧间预测中提取的“块向量”(Block Vector, BV)来指导 EIP 滤波器参数的计算区域选择,从而提升对非局部纹理和运动相关结构的建模能力。不同于传统 EIP 仅使用当前块邻近的左上角重建像素,BV-EIP 利用历史信息中的空间偏移关系,将参考区域扩展到更远但语义相关的区域。在 VVC / ECM 架构中,EIP 是一种高级帧内预测工具predxy∑i014ci⋅tx−dxiy−dyi。

2025-12-17 14:04:50 864

原创 JVET-AH0086

prednewxy∑i014ci⋅tibprednew​xyi0∑14​ci​⋅ti​bcic_ici​:原有的 15 个外推滤波器系数(仍由最小二乘法从邻域样本拟合得到)tit_iti​:对应位置的参考像素值bbb:新增的偏置项(bias)⚠️ 注意:这个偏置 $ b $ 不是固定常数,而是根据当前块内容动态确定的。对每一个生成的预测值predxypredxypredclipxyClip3L。

2025-12-16 15:59:30 884

原创 VVC传统角度预测

在 VVC(Versatile Video Coding, H.266)标准中,帧内预测是提升编码效率的核心技术之一。共定义了67 种帧内预测模式Planar(平面预测)DC(均值预测)65 种传统角度预测模式这些角度模式覆盖从-135° 到 +45°的方向范围,用于模拟图像中不同走向的边缘结构(如水平线、斜边、轮廓等)。步骤内容公式(1)构造参考线Ref[]长度 =2N12N + 12N1(2)计算整数偏移ildxy⋅offset≫5ildxy⋅offset。

2025-12-16 12:45:30 1384

原创 ECM CCCM

利用亮度-色度强相关性提升色度预测精度特别适合屏幕内容(文字、UI、图表)解码复杂度极低,适合实时应用与现有技术正交,可与其他 SCC 工具叠加跨分量相关性建模项目内容名称用途利用亮度残差预测色度,提升压缩效率适用范围色度分量 ≥4×4,Intra slice两种模式Derivation(自动学习)、Merge(复用历史)核心方法最小二乘拟合 α + β·r_Y输入特征邻近亮度残差输出目标色度残差修正项增益Y: -1~2%, C: -2~4%(尤其 SCC)复杂度。

2025-12-12 17:30:35 1035

原创 ECM DIMD

是一种混合预测模式,允许当前编码单元(CU)同时使用帧间预测(Inter)信号和帧内预测(Intra)信号进行加权组合,生成最终预测值。其核心思想是:不要只选一个 —— 让 Inter 和 Intra 合作!通过线性融合两种不同性质的预测结果,更好地适应复杂区域(如纹理边缘 + 运动物体交界),从而提升压缩效率。特性内容全称目的融合帧间与帧内优势,提升复杂区域预测精度核心公式候选来源空间、时间、历史、导出最大候选数通常为 5传输方式仅传 merge index 或显式参数适用范围。

2025-12-12 17:23:41 793

原创 ECM CCP

CCP 是一种的预测技术,用于提高色度(Cb/Cr)编码效率。其核心思想是:利用已重建的亮度分量(Y)的残差信息来预测当前块的色度分量(Cb/Cr)值。predchromaxybase_predxyβ⋅x′y′predchroma​xybase_predxyβ⋅x′y′base_pred可以是平面、DC 或角度帧内预测;β\betaβ是缩放系数(由训练或 RDO 决定);是邻近区域亮度残差样本;x′y′。

2025-12-12 17:16:26 864

原创 JVET-AL0205

项目内容提案编号主题引入对角形支持区域的 EIP 滤波器主要创新扩展参考样本至 above-right 和 below-left 区域滤波器数量提出 3 种新型对角形状(Fig. 2)实验平台ECM-16.1,All Intra 配置性能表现U/V 微幅上升;内存/时间可控应用前景适合高纹理、斜边丰富的视频(如游戏、动画、PPT)下一步建议引入自适应形状选择机制、联合训练端到端模型。

2025-12-11 17:17:23 644

原创 JVET-AG0058

基于外推滤波的帧内预测模式形状输入分布描述Shape A十字交叉型(十字中心为当前预测点上方和左侧采样)Shape B倾斜型(沿主对角线方向排列)Shape C分散型(覆盖更广邻域)图见原文 Figure-1,每个滤波器有 15 个输入位置,1 个输出(即当前预测点)项目内容提案名称EE2-1.14: 基于外推滤波的帧内预测模式(EIP)核心技术外推滤波器 + 本地学习/继承机制 + 对角预测 + 变换引导优势AI 场景下 BD-rate 最多节省 -0.20%(Y)劣势。

2025-12-11 16:54:10 949

原创 ECM-19.0/source/App/EncoderApp/CMakeLists.txt

else()endif()endif()else()endif()endif()启用或禁用跟踪功能(ENABLE_TRACING)启用或禁用高比特深度支持(RExt__HIGH_BIT_DEPTH_SUPPORT)

2025-12-11 14:02:46 687

原创 Cmake add_executable()

是一条CMake 命令,用于定义一个名为的可执行程序,它由源文件编译而成,同时将头文件和 NatVis 文件纳入项目以便于开发和调试。

2025-12-11 13:59:01 530

原创 PU::getAffineMergeCand

这些子函数按照上述顺序依次执行,每个阶段都可能根据不同的宏定义条件进行编译时的条件编译,从而影响最终的功能实现。: 获取子块级ATMVP运动向量候选。: 添加继承的HMVP仿射合并候选。: 添加单个仿射HMVP合并候选。: 从邻居PU继承仿射运动向量。: 添加空间仿射HMVP候选。: 进行运动向量精细化处理。: 获取子块SMVP候选。: 获取左侧仿射邻居PU。: 获取上方仿射邻居PU。

2025-12-10 17:58:56 721

原创 VVC LIC

sps_lic_enabled_flag // 是否启用 LIC 功能num_lic_param_sets // 参数集数量for(i=0;i++) {num_lic_params_in_set[i] // 每个集中有多少组(a,b)for(j=0;j++) {coded_a_index[j] // 指向预设 a 值表的索引coded_b_value[j] // 可选:显式传 b 或由公式推导实际系统中可预置多种常见光照变化模式(如渐亮、渐暗、闪烁等)项目内容全称类型帧间预测增强技术。

2025-12-10 17:33:09 743

原创 VVC IBC&Transform Skip

(帧内块复制)项目内容名称类型帧内预测模式原理利用当前帧已重建区域进行块复制预测MV 来源相对位移,指向左/上方已编码块应用场景屏幕内容、图文视频、UI 动画配套技术在 ECM19.0 中已集成,可通过配置启用编码收益在 SCC(Screen Content Coding)中显著降低码率如果你正在使用VTM 或修改版 ECM 软件# 示例:VTM 编码命令(启用屏幕内容工具)VTM 中函数在VVC(H.266)编码标准中,Transform Skip(变换跳过)

2025-12-10 16:51:59 1276

原创 JVET-AN0218

本提案的核心贡献在于:✅突破传统邻域检测局限改进项技术价值细粒度边缘扫描提升局部运动特征感知能力第二层邻域扩展增强上下文感知范围,减少漏检非相邻块参与判断更好适应长距离运动一致性场景💡最终效果更多CU得以启用高效子块合并模式;编码决策更智能,冗余尝试减少;实现压缩效率提升 + 编码速度加快的双重优势。🎯建议应将此邻域扩展机制纳入下一代视频编码标准参考模型,作为子块合并模式可用性判断的增强方案。

2025-12-10 10:24:45 867

原创 JVET-AJ0085

原文依据:[1] 文档第2节数据来源:[3] Abstract 及 [2] 表格扩展子块合并模式的适用范围,通过设定的新准则,让更多窄长形CU得以利用该技术;引入智能启用机制,借助邻域编码信息判断是否启用该模式,避免无效尝试带来的资源浪费;区分规范性与非规范性实现路径,最终推荐采用更高效的EE2-3.7a 方案,即:条件不满足时不传输子块合并标志;使用专用上下文模型提升熵编码效率。✅最终建议应将EE2-3.7a。

2025-12-09 16:41:23 846

原创 PU::adjustMergeCandidatesInOneCandidateGroupSubTMVP

函数位于InterPrediction.cpp第16364行,用于调整SubTMVP合并候选组中的候选,优化合并模式选择。函数是SubTMVP技术中的关键组件,通过计算和比较不同合并候选的失真代价,选择最优的合并候选,从而提高视频编码的效率和质量。该函数利用了AML(Adaptive Motion Vector Length)模板技术,通过参考相邻块的信息来优化运动预测。在视频编码的帧间预测中,模板评估不同运动向量预测候选的质量计算当前块与参考图像中对应区域的相似性辅助选择最优的运动向量预测。

2025-12-09 11:49:45 918

原创 PU::getInterMergeCandidatesSubTMVP()

MER区域是通过不同的MER区域是基于并行级别(plevel)划分的像素块,它们的主要作用是支持VVC编码器的并行编码能力。通过调整plevel参数,可以控制MER区域的大小,从而在编码速度和编码效率之间取得平衡。在合并模式中,只有来自不同MER区域的相邻PU才能被用作合并候选,确保并行编码的正确性。独立区域是指可以并行编码的像素区域,同一区域内串行处理,不同区域间并行处理MER区域是实现独立区域划分的技术手段。

2025-12-08 17:51:30 931

原创 Affine

步骤操作1, 控制点MV残差等2获取 TL、TR、BL 三点的MV(通过 merge/AMVP + 残差)3mv⃗BRmv⃗TRmv⃗BL−mv⃗TLmvBR​mvTR​mvBL​−mvTL​4将CU划分为 4×4 子块5对每个子块,计算其中心坐标xcyc(x_c, y_c)xc​yc​6使用双线性插值或参数化模型计算该点的MV7将MV舍入到 1/4 像素精度(用于后续运动补偿)8。

2025-12-08 11:14:05 1044

原创 SbTMVP

是一种针对使用SBT 模式的编码块所设计的运动矢量预测机制。它通过复用邻近已编码子块的运动信息,并结合当前块的划分结构,生成更精确且低复杂度的 MV 预测值。项目内容名称所属ECM 实验模型(如 ECM19)核心机制为 SBT 模式下的 TU 提供轻量级 MVP关键优势低复杂度、高精度、节省比特应用场景屏幕内容、稀疏纹理、UI 动画性能增益SCC 场景下可达 1%+ BD-rate 节省。

2025-12-05 18:15:48 917

原创 Sub-Block Merge Mode

是一种允许一个大编码块(CU)被划分为多个子块(sub-blocks),每个子块可以独立选择不同的 Merge 候选运动参数的预测模式。对比项传统 Merge 模式Sub-Block Merge 模式运动粒度整个 CU 使用同一组 MV子块可有不同 MV适用运动类型平移运动旋转、缩放、剪切等复杂运动预测精度一般更高(尤其在边缘区域)📌 核心思想:👉 “不是所有像素都往同一个方向动,那就让它们各自‘跟’不同的参考块走。优点缺点✅ 提升复杂运动预测精度。

2025-12-05 17:44:57 866

原创 VVC 变换

传统变换(如 DCT)对整个预测残差块进行统一变换。但在很多情况下,图像的残差能量集中在局部小区域(如边缘、角点)。SBT 允许只对残差块中的部分子块进行变换和编码,其余置零,从而节省比特。传统 DCT-II 虽然高效,但对某些信号类型(如渐变、锐利边缘)不是最优。MTS 允许编码器从一组正交变换中选择最适合当前残差块的变换核,以提高能量集中度,减少高频系数,从而节省比特。这是 VVC 中引入的一项高级工具,在主变换(DCT/DST)之后,对低频系数再做一次二维不可分变换。

2025-12-05 13:56:10 884

原创 AMVP AMVR Affine

AMVP 是一种运动矢量预测机制,用于减少运动矢量(Motion Vector, MV)编码所需的比特数。它通过利用空间和时间上的邻近块的运动信息来预测当前块的运动矢量,只对“预测残差”进行编码。AMVR 允许根据图像内容动态调整运动矢量的表示精度(即步长),以平衡压缩效率与运动描述精度。传统运动补偿假设整个块做平移运动(translation only),而仿射变换允许块内部像素具有旋转、缩放、剪切等非刚性运动,更适合处理局部变形、缩放、旋转等复杂运动。技术中文名主要作用核心思想是否VVC标准。

2025-12-03 15:58:01 911

原创 ECM19.0 Intra

调用关系→→(只对亮度,色度由其它函数处理)。内部算法:先在当前 CU 上生成一大批帧内亮度候选模式 → 通过预测 + SATD 做快速代价筛选出少量“有希望”的模式 → 对这些模式逐一进行完整的残差编码(TU 划分、变换/量化、CABAC 比特估计),计算精确 RD 成本 → 选出 RD 成本最小的模式,并更新cu/cs与各种缓存,用于后续色度或第二颜色空间以及分割决策。

2025-12-03 15:25:48 903

原创 ECM19.0 Inter

调用关系只做时域预测(选择 MV、RefIdx、仿射/非仿射、BCW 等,并生成预测像素)。:在预测完成后,控制不同 residual pass / SBT/MTS/LFNST 组合的 RDO 流程,核心是多次调用来做残差编码 + RD 计算,然后配合更新最佳 CU。算法结构侧重运动搜索和预测模式选择;则负责TU 划分、变换量化、残差编码、比特/失真/成本计算,并支持 skip、SBT、MTS、LFNST、ACT 等一整套工具的联合 RDO。

2025-12-03 14:31:51 683

原创 ECM19.0 EncCu.cpp

调用位置调用函数调用时机目的测试分割模式时评估分割模式的RD成本早期退出检查失败时提前退出并更新结果递归处理子块时对每个子块进行编码最终RD检查时比较并更新最佳分割结果所有模式测试完成后更新最佳编码模式函数被调用位置主要调用目的帧间运动估计残差编码更新最佳结果帧内亮度预测帧内色度预测更新最佳结果残差编码与RD计算。

2025-12-03 14:17:27 861

原创 RNN模型与NLP应用

每条评论20词,每个词8维

2025-06-21 17:57:43 318

原创 HEVC数据集和UVG数据集

特性UVG 数据集HEVC 标准测试序列 (数据集)核心目的极限性能压力测试(高分辨率、高帧率、高动态)标准化性能评估与比较(覆盖广、通用、权威)主要分辨率4K (3840x2160) 为主全覆盖 (A:4K, B:1080p, C:WVGA, D:WQVGA, E:720p)帧率高帧率 (50/60/100/120 fps)为主主流帧率 (30/60 fps)内容特点极端复杂/高速运动、高细节纹理多样化、标准化,包含特定场景 (会议、屏幕内容)突出挑战时间冗余消除 (高速运动)

2025-06-16 23:31:05 1236

原创 DL Basics

交叉熵在分类任务中具有梯度高效、概率解释合理、优化稳定等优势,而 MSE 更适合回归问题。选择损失函数需结合问题类型和模型输出特性。

2025-06-13 17:32:00 838

原创 AUC基础理论和ROC曲线

AUC (Area Under the Curve) 是一个常用的评估指标,主要用于衡量分类模型的性能,特别是在二分类问题中。AUC 是评估分类模型排序能力的重要指标,特别适用于不平衡数据集。但它不能单独衡量模型的全部性能,通常需要结合。如果 AUC = 0.85,意味着该模型有 85% 的概率能够将随机选择的正样本排在负样本之前。

2025-06-08 23:31:00 1304

原创 推荐系统:涨指标

2025-05-16 11:51:42 153

原创 推荐系统:物品冷启动

*物品冷启动指的是如何对新发布的物品做分发。优化物品冷启动在小红书这样的 User-Generated Content (UGC) 平台尤为重要,这是因为新物品数量巨大,内容质量良莠不齐,分发非常困难。UGC 平台的物品冷启动有三个目标:精准推荐:克服冷启的困难,把新物品推荐给合适的用户,不引起用户反感。激励发布:流量向低曝光新物品倾斜,激励发布。挖掘高潜:通过初期小流量的试探,找到高质量的物品,给与流量倾斜。**

2025-04-14 15:52:01 404

原创 推荐系统:重排

物品相似性的度量。可以用物品标签或向量表征度量物品的相似性。最好的方法是基于图文内容的向量表征,比如 CLIP 方法。提升多样性的方法。在推荐的链路上,在粗排和精排的后处理阶段,综合排序模型打分和多样性分数做选择。推荐系统和搜索引擎重排中常用的 Maximal Marginal Relevance (MMR),它根据精排打分和物品相似度,从 n 个物品中选出 k 个价值高、且多样性好的物品。这节课还介绍滑动窗口 (sliding window),它可以与 MMR、DPP 等多样性算法结合,实践中

2025-04-13 20:53:16 317

原创 推荐:行为序列

用户最近 n 次点击、点赞、收藏、转发等行为都是推荐系统中重要的特征,可以帮助召回和排序变得更精准。这节课介绍最简单的方法——对用户行为取简单的平均,作为特征输入召回、排序模型。

2025-04-10 16:38:23 204

原创 推荐:特征交叉

线性模型对输入的特征取加权和,作为对目标的预估。如果先做特征交叉,再用线性模型,通常可以取得更好的效果。如果做二阶特征交叉,那么参数量为O(特征数量平方),计算量大,而且容易造成过拟合。因式分解机(Factorized Machine, FM)用低秩矩阵分解的方式降低参数量,加速计算。任何可以用线性模型(比如线性回归、逻辑回归)解决的问题,都可以用 FM 解决。Deep & Cross Networks (DCN) 译作“深度交叉网络”,可以用于召回双塔模型、粗排三塔模型、精排模型。DCN 由一个

2025-04-08 11:55:02 240

原创 推荐系统:排序

为什么要做校准:如果纯优化点击的话,降采样后的各个物品ctr相对顺序是不变的,不做校准也可以。校准一般是针对广告系统,ctr需要参与广告计费的计算,所以需要精确值。而校准有两部分,一是模型端降采样后的校准,如视频里说明。二是后链路根据实际CTR校准,如插值保序回归等。电商的融合公式,感觉可以拆解去理解,拆分为所有子目标的一次方的积,即营收,再乘以每个子目标α-1次方,相当于不同目标加权系数

2025-04-04 23:05:37 126

原创 推荐系统:召回

在推荐系统中,如果用户看过某个物品,就不再把物品推荐给这个用户。小红书、抖音都这样做曝光过滤,原因是实验表明重复曝光同一个物品会损害用户体验。但也不是所有推荐系统都有曝光过滤,像 YouTube 这样的长视频就没有曝光过滤,看过的可以再次推荐。曝光过滤通常是在召回阶段做。想要做曝光过滤,需要对于每个用户,记录已经曝光给他的物品。一个用户历史上看过的物品可能会非常多,为了做到高效的曝光过滤,需要用Bloom Filter这种数据结构。

2025-03-26 17:49:40 446

原创 推荐系统概要

# 北极星指标## 实验流程# 2。

2025-02-22 16:37:13 244

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除