LucasWang_0X-优快云博客

原创 PyTorch 迷之特性：GPU → CPU 传输竟然这么慢？

摘要：实验发现PyTorch中GPU→CPU数据传输效率比反向操作低6倍（1.96GB/s vs 12.48GB/s）。原因是默认使用非固定内存，需额外缓冲拷贝。通过预分配pinned memory（pin_memory=True），传输速度提升7.5倍至14.3GB/s，达到PCIe带宽极限。建议高频传输时主动启用pinned memory，并配合异步操作优化性能。

2025-10-14 10:56:02 647

原创复现数据集 RULER: 你的长上下文语言模型的真实上下文大小是多少？

RULER数据集复现过程中的技术问题与解决方案本文记录了在复现NVIDIA RULER长上下文评测基准时遇到的技术问题及解决方法。主要挑战包括：1)依赖包安装问题，如废弃的pyairports通过源码安装解决；2)网络环境配置，通过更换清华源加速下载；3)Docker GPU环境搭建，需安装nvidia-container-toolkit；4)特定组件安装，如FlashAttn需限制编译线程数，causal_conv1d等需手动下载预编译包；5)NLTK数据缺失问题。最终通过修改Dockerfile、调整

2025-09-26 23:49:38 1078

原创论文复现-DFloat11

摘要： DFloat11 是一种面向大语言模型的无损压缩框架，针对 BFloat16 权重（占比超 50%的主流格式）的低熵特性，通过动态熵编码实现约 30% 的存储压缩，同时保持输出比特级一致。其创新 GPU 解压内核设计包括 SRAM 优化查找表、双阶段解压策略及 Transformer Block 级解压，显著提升效率。实验显示，该技术支持在有限显存下运行超大规模模型（如 Llama-3.1-405B），相比 CPU-offloading 吞吐提升 38.8 倍，并扩展上下文长度 13.17 倍。用户

2025-09-12 21:36:09 443

原创论文复现-CacheBlend

摘要：本文介绍了CacheBlend项目，它通过选择性KV重计算机制优化RAG应用中的长输入处理，在保持生成质量的同时显著提升性能。复现过程中遇到两个关键问题：NCCL依赖安装失败（通过删除相关依赖解决）和TypeError报错（通过修改模型配置解决）。复现结果显示，CacheBlend在不同基准测试中均能显著降低首token延迟（TTFT缩短2.2-3.3倍），同时保持相近的生成质量指标（F1/Rouge-L分数）。完整复现步骤和结果已备份至知乎专栏。

2025-09-12 11:12:45 417

原创 C++基础 - 利用系统调用运行Python脚本

题主原本以为这种问题GPT应该能简单应对，没想到好几个GPT给出的代码都是错的，特记录如下。

2024-02-15 17:03:55 497 1

原创 C++ 基础 - 关闭访问控制

进行单元测试时，常常需要关闭访问控制，一种常见的错误方式是直接#define, 如下。

2024-02-02 19:21:42 678

原创 C++ 基础 - 输出精度控制

输出 1.300000 2.56 2.566.

2024-02-02 19:21:06 1460

原创计算机基础 - 软链接和硬链接

参考：Linux 硬链接与软链接 (runoob.com)。总结：目录结构：一、硬链接测试两次ls的输出结点相同，说明是同一个节点。二、软链接测试(符号链接symbol link)清晰地显示链接内容。此时如果删除源文件：将会显示如下内容：三、对文件系统的链接硬链接报错：软链接：C++ 编译测试：成功输出。说明链接对于C++程序无影响。

2024-01-31 12:52:44 468

原创奇数平方和不可能为完全平方数

奇数平方和，完全平方数

2023-04-26 12:08:32 547

原创互质勾股数的生成方法

构造互质勾股数的可枚举表达式

2023-04-26 12:07:02 180

原创一个组合恒等式的证明

一个组合恒等式的证明

2023-04-12 17:09:10 195

原创编程笔记(三) 二分查找算法

二分查找的基本介绍

2023-03-10 00:16:43 272

原创量子通信之超密编码

写在最前面：本文是阅读《Quantum Computation and Quantum Information》时所作。[2.3]1 方案(1).(1).(1).Alice 和 Bob 预先共享一对纠缠态∣ψ⟩=12(∣00⟩+∣11⟩)|\psi\rangle = \frac{1}{\sqrt{2}}(|00\rangle+|11\rangle)∣ψ⟩=21(∣00⟩+∣11⟩).(2).(2).(2).Alice 和 Bob 分别持有纠缠态的一个粒子。(3).(3).(3).Alice

2021-08-21 21:33:22 2079

原创笔记：量子力学初探

2021-08-19 23:23:56 1260

原创数学笔记(四)线性代数知识点总结

写在最前面:本文是阅读《Quantum Computation and Quantum Information》时所做，作者之前略微学过线性代数，但了解不深，阅读第二章第一节线性代数部分时遇到了很多困难，今将学习笔记发布给大家参阅，若有疏漏欢迎理性讨论，希望能给大家带来一点启发。[2.1.2] (这是书上的相关内容的对应章节)1.线性变换与矩阵表示的转换：1.1 一般情况线性算子本身与坐标系无关，但要将其矩阵联系起来，需要建立坐标系，而建立坐标系首先要确定基。给定输入基∣vi⟩|v_i\rangl

2021-08-10 21:55:35 1569

原创数学笔记（三)用参数方程表示的平面的法向量

用参数方程表示的平面方程的法向量一个平面可以用参数方程这样表示：{x=x(u,v)y=y(u,v)z=z(u,v)\left\{\begin{aligned}x&=x(u,v)\\y&=y(u,v)\\z&=z(u,v)\end{aligned}\right.⎩⎪⎨⎪⎧xyz=x(u,v)=y(u,v)=z(u,v)例如球面x2+y2+z2=1x^2+y^2+z^2=1x2+y2+z2=1 用参数方程可表示为{x=sinϕcosθy=sinϕsinθz=cosϕ\lef

2021-05-30 13:27:39 5222

原创数学笔记（二）从函数线性空间到傅里叶变换

从函数线性空间到傅里叶变换初识傅里叶变换博主还是高中生的时候，在B站上经常可以刷到“用傅里叶变换做XX曲线”。当时便对傅里叶变换充满好奇，一个变换居然可以做出这么多曲线，于是对傅里叶变换记忆比较深刻，后来从FFT算法再次与这个老朋友见面，就多了解了一下，这篇文章博主就尝试解释下傅里叶变换。另外函数线性空间是博主自己瞎取的名字，字面意思，具体是否恰当就不要深究了。线性空间博主从《线性代数》课程中已经了解过向量空间的概念。不难知道向量空间的元素都是形如a⃗={a1,a2,a3,...an}\vec{a}

2021-04-27 09:25:09 916 2

原创数学笔记(一)积分与动能定理

由物理引申的数学结论前记：本篇博客将收录一些在物理学习得到的数学结论。1.∫y′′dy=12y′2+C\int{y''}dy=\frac{1}{2}y'^2+C∫y′′dy=21y′2+C证明：两边求导：y′′dy=y′dy′y''dy=y'dy'y′′dy=y′dy′左边=y′′dy=dy′dxdy=dydxdy′=y′dy′y''dy=\frac{dy'}{dx}dy=\frac{dy}{dx}dy'=y'dy'y′′dy=dxdy′dy=dxdydy′=y′dy′=右边。得证。在物理上

2021-04-05 19:41:36 960

原创编程笔记（一）求斐波那契数列的第n项的三大方法

求斐波那契数列的第n项本文章示例代码使用python语言。不同语言的朋友也可以看看算法。我们知道斐波那契数列f(n)有以下性质：1.f(0)=0,f(1）=12.f(n)=f(n-1)+f(n-2)那么，对于一个指定的数字n,我们应该怎么求f(n)呢？法一：利用通项公式我们知道斐波那契数列的通项公式为：...

2020-11-25 16:20:16 4860

m0_51153423的博客