零澪灵-优快云博客

原创无root权限，gcc版本过低如何解决

下述命令仅在当前终端生效，不改变系统环境变量，相对安全，如果需要永久修改，需要改动.bashrc文件，由于需要考虑环境变量的优先度问题，可能存在风险。此时安装完之后，由于系统环境变量没有更改，所以默认还是使用系统自带的gcc，我们需要指定使用最新版本的gcc.激活虚拟环境，执行下述命令，会在当前虚拟环境中安装最新版的gcc。执行下述命令查看是否成功安装，安装成功后理论会有4个文件出现。

2025-11-02 15:27:48 236

这样的问题是参数的共享会导致模型效果下降，毕竟原本有128个头，128份KV参数，每份KV参数都会计算出不一样的注意力分布，让模型能更好的根据所有的注意力分布去预测下一个词，而现在128份参数变成了1份，预测效果下降是必然的。说不存在W_UK和W_UV其实并不严谨，但是这样可以更方便去理解，其实这里所谓的把W_UK与W_Q融合是指输入先经过W_Q，紧跟着就经过W_UK，从结果上来看，跟先把W_UK与W_Q相乘得到W_QUK，然后输入经过W_QUK的效果是一样的。，如果阅读本文出现问题，建议直接去看一遍。

2025-08-01 19:44:38 829

原创 Silu、Swish、SwiGLU、GELU —— Qwen中的激活函数

在Qwen2.5和Qwen3的MLP部分使用的激活函数是Silu，从源代码中可以看到，config.hidden_act==silu，对应的激活函数就是nn.SiLU。在技术报告中之所以会说使用的技术是SwiGLU，是因为采用了门控机制。，从形式上看确实如此，但实际上，这个1.702是一篇研究对GELU进行近似拟合得到的参数，本质上激活函数的曲线是与GELU基本一致，只是计算上采用了类似Swish的更简单的计算方法。GLU使用的是sigmoid激活函数，而SwiGLU使用的是Swish激活函数。

2025-07-17 14:46:39 1255

原创 [强化学习] LLM场景下的强化学习 --【GRPO】

文章对比了强化学习中的PPO与GRPO算法在LLM场景下的差异。PPO依赖人类偏好数据，但易导致模型"刷分"行为，且需维护多个模型，资源消耗大。GRPO通过多策略并行、仅计算最终奖励、无监督训练等方式改进：1）取消中间奖励计算，激发模型自主推理；2）采用优胜劣汰策略选择替代梯度优化；3）保留基础SFT训练解决冷启动问题。GRPO的目标函数包含策略优势计算和KL正则项，平衡创新与基础能力保持。该方法降低资源开销，更适配AI自主思维模式的训练需求。

2025-07-11 19:40:19 1116

原创 [强化学习] LLM场景下的强化学习 --【PPO】

一句话：在当前状态(State)下，智能体(Agent)与环境(Environment)交互，并采取动作(Action)进入下一状态，过程中获得奖励(Reward，有正向有负向)，从而实现从环境中学习。在LLM场景下，提到RL一般是指RLHF（人类偏好对齐），此时上述关键概念介绍如下：Agent:语言模型本身，例如GPT、LLaMA。Environment: 训练阶段，环境是奖励模型RM，它基于人类标注的偏好数据对生成的文本评分。在部署阶段，环境是真实用户。

2025-07-07 20:18:34 1293

原创【论文阅读】Co2l: Contrastive continual learning

该论文提出了一种名为Co²L（对比持续学习）的新方法，旨在解决持续学习中的灾难性遗忘问题。核心思想是通过对比学习（Contrastive Learning）和自监督蒸馏（Self-supervised Distillation）来持续学习和维护可迁移的表示。

2025-03-29 17:22:11 1196 1

原创【bug解决】 ImportError: /lib64/libstdc++.so.6: version `CXXABI_1.3.8‘ not found

（3）这里一般的方法是构建软链接，让系统默认使用的动态链接库指向~/environment/miniconda3/lib/libstdc++.so.6，但是这种方法需要sudo权限，我没有权限，所以我直接修改环境配置。（2）查看miniconda3/lib下的的libstdc++.so动态链接库是否有CXXABI_1.3.8，如果依旧没有就说明版本依旧不够新，只能换方法，先去安装新版本，我没有操作过，建议去看其他文章。执行下述代码可以发现，动态链接库版本比较老，缺少CXXABI_1.3.8。

2024-10-31 20:39:15 1511 1

原创【bug解决】 g++版本过低，与pytorch不匹配

将g++安装在新的文件夹gcc-5.4中，另外在gcc-5.4文件夹内新建了一个compilefile文件夹用来存储g++编译过程产生的文件。理论经过上述配置之后执行gcc -v和g++ -v得到的就是你安装的最新版本号。对于第二个报错，是由于目前使用的c++编译器与pytorch的编译器不一致。对于第一个报错，是由于g++版本过低，需要安装5.0以上版本。2、修改环境变量，指定编译器为g++（1）下载并解压安装包。

2024-10-31 16:18:03 1514 1

原创 [bug解决] torch.hub.load()无法联网，导致无法从github上在线加载模型

然后将"facebookresearch/dinov2"修改为你的本地路径"path/to/your/dinov2_main"。首先根据项目名称（"facebookresearch/dinov2"）将项目下载到本地，并传至服务器上。挂载服务器时，无法连接github，从而无法在线加载模型。最后添加一个参数“source”

2024-10-30 13:19:02 2126

原创 [论文阅读] GPT-4 Technical Report

由于本文不会介绍GPT-4的模型结构、技术细节，而GPT-4性能不用说都知道是很强的，所以真正值得关注的只有GPT-4仍存在的缺陷和文中提出的可预测扩展的深度学习堆栈。（5）安全性和偏见：尽管GPT-4在减少幻觉方面取得了进展，但它的输出可能仍然存在偏见，并且需要进一步的测试和改进以确保在不同文化和语言环境中的安全性和适用性。在高风险情境下使用GPT-4的输出时需要格外小心。（6）对抗性攻击和“越狱”：GPT-4可能容易受到对抗性攻击和所谓的“越狱”尝试的影响，这些尝试可能会绕过模型的安全限制。

2024-10-27 16:05:44 855 1

原创 [论文阅读] Improved Baselines with Visual Instruction Tuning

研究问题：改进LLaVA性能研究方法：使用CLIP-ViT-L-336px作为视觉编码器，并引入MLP投影层来增强模型的表示能力。在训练数据中加入了学术任务导向的可视化问答（VQA）数据，并使用了响应格式化提示，以改善模型对短答案和长答案的生成能力。

2024-10-25 17:52:35 1343 2

原创 SIMPLOT: Enhancing Chart Question Answering by Distilling Essentials

研究问题：图表转表格存在困难研究方法：介绍了 SIMPLOT，这是一种旨在仅提取图表推理所需的元素的方法。所提出的方法包括两个步骤：1）训练模拟一个简单的图表，该图表仅包含来自复杂图表的重要信息，以进行表格提取，然后 2）根据表格进行推理。我们的模型无需额外的注释或数据集即可实现准确的图表推理，其有效性通过各种实验得到了证明。此外，我们提出了一种新的提示，模仿人类如何解释图表以实现更准确的推理。

2024-10-23 16:43:47 1224

原创 Advancing Multimodal Large Language Models in Chart Question Answering with Visualization-Reference

研究问题：现有CQA数据集多是合成数据集并且注重数据量，但是图表质量不高。研究方法：提出了一种新的数据引擎，以有效地从现有数据集中过滤多样化和高质量的数据，然后使用基于 LLM 的生成技术来提炼和增强数据，以更好地与实际的 QA 任务和视觉编码保持一致。然后，为了促进对图表特征的适应，我们利用丰富的数据来训练 MLLM，方法是解冻视觉编码器并结合分辨率混合适应策略来增强精细识别。实验结果验证了我们方法的有效性。即使训练示例较少，我们的模型在已建立的基准上也始终优于最先进的 CQA 模型。

2024-10-17 19:21:11 1064

原创 VProChart: Answering Chart Question through Visual Perception Alignment Agent and Programmatic Solu

图表广泛用于各个领域的数据可视化，包括教育、研究和商业。图表问答（CQA）是一项新兴任务，专注于对图表中呈现的数据进行自动解释和推理。但是，图表图像本身就难以解释，并且与图表相关的问题通常涉及复杂的逻辑和数字推理，这阻碍了现有模型的性能。本文介绍了 VProChart，这是一个新颖的框架，旨在通过集成轻量级视觉感知对齐代理（VPAgent）和程序化解决方案推理方法来解决 CQA 中的这些挑战。VPAgent 根据人类视觉感知原理对齐和建模图表元素，从而增强对图表上下文的理解。

2024-10-16 11:14:25 1112

原创 [论文阅读] MoAI: Mixture of All Intelligence for Large Language and Vision Models

研究问题：这篇论文提出的研究问题在于现有的大型语言和视觉模型（LLVMs）在处理视觉语言（VL）任务时，往往忽视了专门计算机视觉（CV）模型在视觉感知任务中的详细和全面的真实世界场景理解能力。这些视觉感知任务包括图像分割、目标检测、场景图生成（SGG）和光学字符识别（OCR）。现有的LLVMs主要依赖于其大型语言模型（LLM）主干的巨大容量和涌现能力，而不是利用这些专门的CV模型的输出。

2024-10-12 14:36:32 1367 1

原创 [论文阅读] Do LVLMs Understand Charts? Analyzing and Correcting Factual Errors in Chart Captioning

研究对象：图表研究问题：图表摘要生成中存在的事实性错误问题研究方法：建立了图表摘要事实性纠错的任务，并引入了 CHARTVE，这是一种视觉蕴涵模型（基于视觉信息的推理模型，用于理解图像并进行推理），在评估摘要事实性方面优于当前的 LVLM。此外，我们提出了 C2TFEC，这是一个可解释的两阶段框架，擅长纠正事实错误。这项工作开辟了图表摘要事实纠错的新领域，提出了一种新的评估指标，并展示了一种确保生成图表摘要真实性的有效方法。

2024-10-11 11:50:37 1329 1

原创 [论文阅读] DVQA: Understanding Data Visualizations via Question Answering

原文链接：http://arxiv.org/abs/1801.08163启发：没太读懂这篇论文，暂时能理解的就是本文提出了一个专门针对条形图问答的数据集DVQA以及一个端到端模型SANDY，模型有两个版本，Oracle和OCR。主要解决的问题是固定词表无法回答包含图表特有词汇问题。所以在SANDY（Oracle）中使用DVQA数据集的所有注释来构建词表，在SANDY（OCR）中使用开源的Tesseract OCR的输出，这样都保证了词表中能包含所有出现在图表以及问题中的词汇。至于文本提到的其他贡献，暂时无法

2024-10-09 19:25:52 1586 1

原创 [论文阅读] Integrating Image Data Extraction and Table Parsing Methods for Chart Question answering

研究对象：图表研究任务：图表问答研究方法：本文专注于从图像图表中自动恢复数据，然后应用最先进的模型进行表解析以获得给定问题的答案。我们的方法在 FigureQA 和 Chart Question Answering Challenge （CQAC）数据集上取得了令人印象深刻的结果。（这篇文章在图表还原表格这一步究竟有什么优势呢）图表图像与常规图像非常不同，因为它们使用图形标记（例如矩形、圆圈）的视觉属性（颜色、长度）对数据进行视觉编码。

2024-10-09 10:43:43 1230 1

原创 [论文阅读] ChartInstruct: Instruction Tuning for Chart Comprehension and Reasoning

研究对象：图表研究问题：微调视觉语言模型以更好的解决图表问答和摘要任务研究方法：引入了 ChartInstruct：一种新颖的图表特定视觉语言教学跟踪数据集，由 191K 条指令和 71K 图表生成。然后，我们提出了两个不同的系统，用于对此类数据集进行指令调整：（1）一个端到端模型，将用于图表理解的视觉编码器与 LLM 连接起来;（2）采用两步方法提取图表数据表并将其输入到 LLM 中的管道模型。优势：在四个下游任务的实验中，我们的模型获得最先进的结果。

2024-09-28 20:02:55 1483 1

原创 [论文阅读]Chart-to-Text: Generating Natural Language Descriptions for Charts by Adapting the Transformer

研究对象：图表研究问题：自动生成图表的自然语言摘要研究方法：引入了新的数据集，并提出一个神经模型，这个神经模型是通过扩展一个在data-to-text生成任务中表现SOTA的模型而得到的。

2024-09-28 11:27:59 1283 1

原创 [报错解决] 运行MATCHA时需要在线下载Arial.TTF字体，但是无法连接huggingface

代码运行过程中需要从huggingface上下载“/ybelkada/fonts/resolve/main/Arial.TTF”，但是由于我是在服务器上运行项目，所以无法连接huggingface，导致连接超时报错。但是打印kwargs发现是一个空字典，所以修改config.json文件并无法传入font_path参数，最终直接原地修改，Arial.ttf要直接从huggingface下载然后传到服务器上。经过逐层向上搜寻，发现font_path赋值位置。

2024-09-25 17:45:38 577

原创 [论文阅读] UniChart: A Universal Vision-language Pretrained Model for Chart Comprehension and Reasoning

原文链接：https://arxiv.org/pdf/2305.14761源码链接：https://github.com/visnlp/UniChart启发：研究对象：图表研究任务：使用语言模型解决图表问答和图表摘要等下游任务研究方法：提出UniChart，一个用于图表理解和推理的预训练模型。UniChart 对图表的相关文本、数据和视觉元素进行编码，然后使用基于图表的文本解码器生成文本。提出了几个特定于图表的预训练任务，包括：（i）从图表中提取视觉元素（例如条形、线条）和数据的高级任务，以及（ii）

2024-09-24 22:19:58 1680 1

原创 [论文阅读] MATCHA : Enhancing Visual Language Pretraining with Math Reasoning and Chart Derendering

最先进的LLM在chart、plot等视觉语言数据上表现不佳，本文提出了 MATCHA （Math reasoning and Chart derendering pretraining）来增强视觉语言模型在联合建模图表/绘图和语言数据方面的能力。具体来说，我们提出了几个预训练任务，涵盖图表解构和数值推理，它们是视觉语言建模的关键能力。我们从 Pix2Struct 开始执行 MATCHA 预训练，Pix2Struct 是最近提出的一种图像到文本的视觉语言模型。

2024-09-24 09:43:41 1113 1

原创 [论文阅读] STRUCTCHART: PERCEPTION, STRUCTURING, REASONING FOR VISUAL CHART UNDERSTANDING

在本文中，我们旨在为联合感知和推理任务建立一个统一的、标签高效的学习范式，该范式通常可以适用于不同的下游任务，而不仅仅是问答任务。具体来说，StructChart 首先将图表信息从流行的线性化 CSV 标记（就是常见的表格形式）重新归纳为结构化三元组表示（STR），由于对图表采用结构化信息提取，它更有利于减少图表感知和推理任务之间的差距。然后，我们提出了一个面向图表的结构化表示指标（SCRM）来定量评估图表感知任务的性能。

2024-09-19 14:51:10 1262 1

原创 DEPLOT: One-shot visual language reasoning by plot-to-table translation论文阅读

理解图表需要很强的推理能力，之前的最先进（SOTA）模型至少需要数以万计的训练示例，然而推理能力仍然非常有限，尤其是在复杂的人工编写的查询中。这篇论文提出了第一个用于视觉语言推理的少样本（few-shot）解决方案，我们将视觉语言推理的挑战分解为两个步骤：（1）图表到文本的翻译，（2）对翻译后的文本进行推理。该方法的关键在于一个模态转换模块，称为DEPLOT，它将图表的图像转换为线性化的表格。DEPLOT的输出可以直接用于提示预训练的大型语言模型（LLM），利用LLM的少样本推理能力。

2024-09-19 10:38:02 1605 1

原创 ChartLlama: A Multimodal LLM for Chart Understanding and Generation论文阅读

多模态大型语言模型在大多数视觉语言任务中表现出令人印象深刻的表现。但是，该模型通常缺乏对特定域数据的理解能力，尤其是在解释图表图片时。这主要是由于缺乏相关的多模态指令微调数据集。在本文中，我们利用 GPT-4 创建了一个高质量的指令微调数据集。我们开发了一个多步骤的数据生成流程，包括生成表格数据，创建图表图形，并分别设计指微调数据。我们方法能够高效地生成多样化、高质量的指令调整数据，同时保持较低的资源支出，此外，它还允许我们整合现有数据集中尚未包含的更广泛的图表和任务类型。接下来，我们介绍。

2024-09-18 11:22:34 1709 1

原创 STL-CQA: Structure-based Transformers with Localization and Encoding for Chart Question Answering阅读

图表问题解答（CQA）是回答有关图表图像中可视化项的自然语言问题的任务。受 VQA 方法的启发，近期研究更多依赖于image-based的注意力机制来解决QA，而忽略了图表固有的结构（只利用了视觉信息，忽略语义信息）。我们提出了 STL-CQA，它通过按顺序的元素定位、问题编码（question encoding）、基于transformer的学习方法来改进CQA。我们进行了大量的实验，同时提出了预训练任务、方法以及改进的数据集，其中包含更复杂和更平衡的不同类型的问题。

2024-09-14 14:30:53 846

原创工作环境配置（windows+linux远程服务器）-python版

建议安装插件：Zotero Connector, Zotero GPT, Zotero Reference, Zotero Better note, Zotero PDF preview, Translate for Zotero。，或者github下载，下载方式为：下载项目zip包->解压->进入一级目录后将内部同名文件夹压缩->改后缀名为.xpi。同步设置：编辑->设置->同步->数据同步->登录账户->重启刷新。4.zotero安装、插件安装、同步设置。2.vscode安装。

2024-08-26 16:44:06 276

原创 XCiT: Cross-Covariance Image Transformers论文阅读

Transformer在自然语言处理取得巨大成功，最近在CV领域也表现出巨大潜力。transformer中的自注意力操作可以生成tokens（例如单词或图像块）间的全局交互（因为自注意力会计算tokens两两之间的注意力分数），并且可以在卷积的局部操作之外对图像数据进行灵活建模。但是，为了达到这种灵活性，代价是时间以及空间复杂度达到O(，限制了长序列和高分辨率图像场景的应用。我们提出了一种“transposed”版本的自注意力机制，它可以通过keys和queries之间的互协方差矩阵来。

2024-05-21 23:08:57 2071 2

原创 LineEX项目实践

正在更新ing正在更新ing。

2024-05-17 21:55:40 616

原创 Chart Mining：A Survey of Methods for Automated Chart Analysis论文阅读

图表以一种以可视化形式呈现数据的有效交流工具。有许多研究致力于图表挖掘，即对图表进行自动检测、提取、分析，以再现出用于创建图表的原始数据，并以表格形式展现数据。图表挖掘为下游任务得以使用图表数据打下基础。本篇论文全面调查了图表挖掘过程的各个步骤所用到的方法，例如：（i）从文档中自动提取图表；（ii）多板块图表处理；（iii）自动图像分类器以大规模收集图表图像；（iv）针对常见图表类型和特定图表类型，从图表图像中自动提取数据；（v）图表挖掘的应用；（vi）构建训练与评估数据集的方法。

2024-04-13 22:02:15 1084 1

原创基于transformer的机器翻译实战

文本序列中的单词是有顺序的，一个单词在序列中所处的位置对我们理解其词义、上下文关系都十分重要，但是传统的词向量嵌入(word embedding)并不包含位置信息，所以专门引入位置向量。两种方式的比较：有论文实验显示，绝对位置嵌入和可学习位置嵌入最终的效果是类似的，但是可学习位置嵌入会引入额外的参数，增加训练开销，所以本项目使用。作用是避免过拟合，如果不使用mask，会导致模型在训练时就能看到整个句子，从而导致训练准确度上升很快，但是验证准确度会先升后降。的单词，所以可以使用三角型的mask矩阵。

2024-04-13 12:26:27 2390 6

原创解决conda中g++版本过低问题

【代码】解决conda中g++版本过低问题。

2024-04-01 16:51:26 722

原创 Layer Normalization 论文阅读

训练深度神经网络的计算开销很大。一个可以减少训练时间的方法是“归一化神经元活动”。近来一个叫做批量归一化的技术，在小批量训练情况下，使用一个神经元的总输入的分布来计算均值和方差，然后用于归一化每个训练样本上的神经元的总输入。这显著减少了前馈神经网络的训练时间。但是，批量归一化的影响依赖于batch size，并且不知道如何将它应用在循环神经网络中。在这篇论文中，我们不再使用一个神经元，而是使用单次训练情况下所有神经元的总输入来计算均值和方差，从而将批量归一化调换为层归一化。

2024-03-26 14:38:35 1657 1

原创 Python迭代器浅析

迭代器在生成数据的过程中，会跟踪当前的状态信息，包括当前生成的数据的位置、状态等，也就是说，面对大型数据集时，迭代器能够知道当前读取到了哪一条数据，以及下一个应该读取哪一条数据。普遍方法是创建一个迭代器类，类中包含__iter__()和__next__()方法，_iter__()返回迭代器本身，__next__()方法返回下一个元素。与其他数据结构不同，迭代器并不会一次性生成所有元素，而是在使用过程中逐个生成元素，这使得不管数据集多大，采取迭代器读取数据集时都只会占用很小的存储空间。

2023-06-30 16:12:24 155 1

原创通过ThingsBoard gateway将数据传输至ThingsBoard平台

此处配置是为了通过host和accessToken连接到ThingsBoard平台中指定的网关设备，然后通过connectors定义的连接器中的json文件，来对数据进行处理并传输到ThingsBoard平台的指定设备中。（3）进入EMQX的主题界面，添加主题，查看该主题的消息流入之后是流出还是被丢弃，如果被丢弃就重新检查前两项内容以及mqtt协议的版本（一般有3.1和5.0，默认使用的是5.0），若mqtt协议版本出错则修改MQTTX连接的配置。若存在则说明驱动程序安装成功。

2023-06-28 14:41:19 5182 1

原创 [OpenCV ] 图像缩放中的插值方法

双线性插值方法，使用最近的4个像素的加权平均值进行插值。该方法相对于最近邻插值可以提供更好的图像质量，但在放大时可能会导致图像锐度的损失。双三次插值方法，使用16个最近邻像素的加权平均值进行插值。与双线性插值相比，双三次插值可以提供更平滑的图像，并且能够保留更多的细节。最近邻插值方法，使用最近的像素值来进行插值。该方法计算速度快，但会导致图像细节的失真。Lanczos插值方法，使用Lanczos滤波器进行插值。区域插值方法，使用原图像的像素区域进行插值。在缩小图像时，该方法可以保留更多的细节。

2023-06-21 10:57:11 912

原创 [Python] 计算机视觉-图像分类经典模型

LeNet模型使用的激活函数是Sigmoid函数，优化器采用Momentum。AlexNet模型使用的激活函数是ReLU函数，优化器是Adam。上述结构是针对手写数字识别任务而设计。二、AlexNet模型。

2023-06-20 14:37:01 3028

原创 [mosquitto]实现接收离线消息

2、订阅主题，在常规的命令之后，添加-c，来关闭cleanSeesion功能，也就是创建持久会话；添加-i clientId，附带上客户端id的信息，来作为唯一标识，之后将根据clientId重新连接会话并接收离线消息；添加-q 1or2，设置消息的QoS为1或者2。标识，若标识为true则代表会话已经存在，无需重新订阅主题，可以通过全局接收来获取离线消息。1、启动mosquitto服务时添加-v，表示可以在broker中打印出监控日志。4、发布消息，需添加-q 1or2。，以及发布消息时Qos≥1。

2023-06-12 13:15:31 882

原创项目中遇到的多线程问题

线程池是一个暂存线程的存储空间，由一个线程队列与一个任务队列组成。线程队列保存着空闲线程，当线程运行结束，就加入线程队列等待下一个任务到来，而不是直接撤销。任务队列保存着等待执行的任务，若任务需要用到某个线程，则直接从线程队列中将其唤醒，而不需要重新创建。因此，线程池可以大大减少线程创建与销毁的开销。此外，线程池还利于线程的管理、提高线程利用率和系统吞吐量。

2023-06-05 17:16:08 332 1

基于transformer的机器翻译实战数据集-英法双语

空空如也