15122306087-优快云博客

原创 VL-JEPA: Joint Embedding Predictive Architecture for Vision-language

架构图1.不再是学习Y跟Yhat,而是\(S_Y和\hat{S_Y}\).思路跟stable diffusion一样.不在真实Y空间学习,而是在Y编码之后的隐空间学习.所以维度更低.效果更好.2 方法论我们提出了VL-JEPA(图1)，这是一种用于视觉语言任务的具有联合嵌入预测架构(JEPA)的模型。VL-JEPA 使用三元组进行训练，其中\(X_V\)表示视觉输入(单个图像或视频帧序列)，\(X_Q\)是文本查询(即问题)，Y是文本目标 (即答案)要预测。培训目标。

2025-12-23 21:50:00 550

原创大脑中有旋律一直循环, 可以咀嚼10秒来摆脱.

大脑中有旋律一直循环, 可以咀嚼10秒来摆脱.

2025-12-23 19:17:00 16

原创 c 语言宏定义

这种后面啥也没写的表示把这个MODULE_DEVICE_TABLE(type, name) 替换为空.

2025-12-23 16:26:00 18

原创 vscode 配置cpp调试环境

设置这个debug模式为调试当前文件.

2025-12-23 15:56:00 21

原创解决vscode, cpp库包找不到问题

首先，确保你已经安装了 Microsoft 的 C/C++ 扩展。你可以在 VSCode 的扩展市场中搜索并安装它。这将打开或创建一个 c_cpp_properties.json 文件，你可以在其中配置 includePath。按下 Ctrl+Shift+P(Windows/Linux)或 Cmd+Shift+P(Mac)打开命令面板。输入并选择 C/C++: Edit Configurations (JSON)。打开或创建你的 c_cpp_properties.json 文件。安装 C/C++ 扩展。

2025-12-23 15:46:00 146

原创 linux 搜索文件的好命令

作用是在 /usr 目录下查找文件名是 init.h，并且路径中包含 linux 的文件。同时，它会将错误信息(比如“权限被拒绝”)屏蔽掉，不显示在终端上。

2025-12-23 15:35:00 27

原创 pcil的模块研发demo

【代码】pcil的模块研发demo。

2025-12-23 15:26:00 19

原创 https://doc.dcloud.net.cn/uni-app-x/app-harmony/

鸿蒙开发!

2025-12-23 10:49:00 16

原创 c语言模板

【代码】c语言模板。

2025-12-22 14:58:00 35

原创手动修改div的护眼色

【代码】手动修改div的护眼色。

2025-12-19 11:22:00 53

原创 modelscope下载模型

modelscope download --model microsoft/TRELLIS.2-4B --local_dir .

2025-12-19 09:22:00 81

原创 Qwen3 Embedding: Advancing Text Embedding and Reranking Through Foundation Models

基于 Qwen3 基础模型，我们的嵌入(Embedding)模型和重排序(Reranking)模型分别采用双编码器(dual-encoder)和交叉编码器(cross-encoder)架构。对于重排序模型，基于实证验证结果，我们直接采用高质量标注数据进行有监督训练，显著提升了训练效率。我们将持续优化 Qwen 基础模型，进一步提升文本嵌入与重排序模型的训练效率，从而增强其在各类应用场景中的部署表现。值得一提的是，在嵌入模型第一阶段的弱监督训练中，我们设计了一套创新的多任务自适应提示(prompt)系统。

2025-12-18 14:32:00 296

原创新的rag框架

(这个创新点的思路是: Q: 孙中山是谁. P1: 孙中山是谁. P2:孙中山是孙文, 按照词向量来说Q,P1最接近,而实际上我们要P2会更接近, 我们使用这个思路来滤掉P1这种无用信息.)(这里基于的一个假设是大模型的lost in the middle effect, 大模型对于头尾的信息注意力最高)筛选后剩余P1...P5比如.再经过rerank模型.对P1到P5进行排序.排序后记作。是否能回答Q的问题. 请回答true or false。使用大模型判断十个有哪些是能有可能回答Q的问题的.

2025-12-18 13:40:00 176

原创在线网页版屏幕录制

https://www.sojson.com/office/onlinescreen.html

2025-12-17 17:00:00 295

原创调试chrome插件的方法

每次修改完代码直接点这个重新加载, 即可让插件更新好代码的修改了.很方便的调试.

2025-12-17 16:24:00 352

原创 pytorch nn.Parameter self.register_parameter() 区别

三、关键区别与底层逻辑。

2025-12-17 15:35:00 156

原创 parquet 读取

【代码】parquet 读取。

2025-12-17 13:14:00 223

原创提示词写小说

写一个克苏鲁小说, 包含克苏鲁, 阿撒托斯, 犹格索托斯等外神,古神. 要表达不可名状的恐怖, 和高维生物的不可知性和他在三维世界投影的恐怖形象, 具有扭曲时空和空间的能力.

2025-12-16 16:06:00 101

原创 Z-Image: An Efficient Image Generation Foundation Model with Single-Stream Diffusion Transformer

我们参考 SD3 [18]，采用 logit - 正态噪声采样器将训练过程集中在中间时间步。此外，为应对多分辨率训练设置下信噪比(SNR)的波动，我们借鉴 Flux [34] 所使用的动态时间偏移策略，确保不同图像分辨率下的噪声水平得到合理缩放，从而提升训练效果。Z-Image 的预训练大致分为两个阶段：低分辨率预训练和全尺度预训练。4.3. 预训练Z-Image 采用流匹配目标函数 [44, 48] 进行训练：首先通过高斯噪声。随后训练模型预测定义二者间路径的向量场的速度(即。

2025-12-15 18:09:00 197

原创图片的信息熵计算

一种用边缘像素的方差, 一种用jpeg压缩后看每一个像素用多少bite来表示.

2025-12-15 16:39:00 138

原创 wps ai生成文件目录

视图-->导航网格。

2025-12-15 10:35:00 108

原创解析word格式和字体

【代码】解析word格式和字体。

2025-12-15 10:15:00 57

原创亮亮仔超级暴龙兽

200坦杀,2个巨炮.

2025-12-13 00:36:00 92

原创 vscode打开项目占用内存过大

使用cmd运行代码即可,关闭vscode, 改代码再打开.

2025-12-12 19:25:00 78

原创去除模型的限制: remove-refusals-with-transformers

先运行compute_refusal_dir.py。再运行inference.py。

2025-12-12 15:41:00 143

原创浏览器插件护眼色

通过网盘分享的文件：eye_protector-master.rar。开发者模式, 加载解压后的文件夹即可.

2025-12-11 10:41:00 93

原创大一统视角理解扩散模型Understanding Diffusion Models: A Unified Perspective

大一统视角理解扩散模型Understanding Diffusion Models: A Unified PerspectiveMLNLP社区是国内外知名的机器学习与自然语言处理社区，受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。社区的愿景是促进国内外自然语言处理，机器学习学术界、产业界和广大爱好者之间的交流和进步，特别是初学者同学们的进步。转载自 | 极市平台作者 | 中森来源 | https://zhuanlan.zhihu.com/p/5589372471『资料来源』这篇文章是近期笔者

2025-12-11 09:15:00 712

显示鼠标位置的rgb值

show鼠标rgb代码

空空如也