
2024大模型以及算力
文章平均质量分 82
本人深圳大学在读博士
研究大模型,数据交易,联邦学习领域
每天帮助你们总结前言论文以及领域相关问题解决办法。
任何问题私信均回复。
感谢订阅。
前沿资讯:及时追踪并报道全球算力领域的最新动态,包括技术创新、政策导向、市场动态等,帮助读者把握行业脉搏。
优惠券已抵扣
余额抵扣
还需支付
¥199.90
¥299.90
购买须知?
本专栏为图文内容,最终完结不会低于15篇文章。
订阅专栏,享有专栏所有文章阅读权限。
本专栏为虚拟商品,基于网络商品和虚拟商品的性质和特征,专栏一经购买无正当理由不予退款,不支持升级,敬请谅解。
ZhangJiQun&MXP
本人在读博士,研究大模型,数据交易,联邦学习领域
每天帮助你们总结前言论文以及个人遇到问题。
投稿Expert Systems with Applications历时4个月;中科院1区顶刊,本人在科研一线,在文章架构设计,公式编辑,图片美化,语言润色。overleaf编辑方面有一定经验,直接订阅后私信本人可以协助完成投稿返修。https://blog.youkuaiyun.com/qq_38998213/article/details/146232131?sharetype=blogdetail&sharerId=146232131&sharerefer=PC&sharesource=qq_3899821
展开
-
Qwen大语言模型里,<CLS>属于特殊的标记:Classification Token
在Qwen大语言模型里,<CLS>属于特殊的标记,其全称为"Classification Token",也就是分类标记。它在模型处理输入文本以及输出预测结果时,发挥着关键作用。原创 2025-06-07 00:28:28 · 138 阅读 · 0 评论 -
Qwen分词器:揭秘IM标记与工具调用
Qwen系列模型的分词器配置详解:该配置定义了Qwen模型(如1.8B/72B版本)的特殊标记、输入格式等核心参数。主要特点包括:1)对话场景专用标记(如<|im_start|>/<|im_end|>区分对话角色);2)工具调用支持(<tool_call>标记包裹JSON);3)多模态能力(视觉内容标记<|vision_start|>);4)13万token长文本处理。配置强调对话交互优先,与传统BERT模型不同,无CLS标记但支持函数调用和多模态扩展。&qu原创 2025-06-07 00:27:48 · 94 阅读 · 0 评论 -
强化学习是对环境的动态感知,奖励仅仅是最终结果(围棋对弈:赢; 路径优化:找到终点)
强化学习是对环境的动态感知,奖励仅仅是最终结果(围棋对弈:赢; 路径优化:找到终点)## 创新:监督学习 + 强化学习## 一、有标签数据与围棋对弈结果(赢/输)的本质区别原创 2025-06-06 18:46:31 · 10 阅读 · 0 评论 -
思维链的 内部机制和简单理解
思维链是对解决问题的步骤进行规划,规划后将作为上下文 在LLM中继续输出。因为Transform都是一个一个单词生成,没新生成一个单词都会将新生的作为上下文。原创 2025-06-06 18:41:46 · 20 阅读 · 0 评论 -
自动化提示生成框架(AutoPrompt)
创新本质**:提出基于**梯度引导搜索**的自动化提示生成方法,替代人工设计模板的传统模式。 - **技术路径**: - 将提示视为可训练的离散token序列,通过优化提示向量(prompt embedding)搜索语义空间。 - 利用**梯度信息**指导提示词的迭代更新,使模型在预训练参数不变的情况下,通过提示激活内在知识。原创 2025-06-06 16:12:35 · 122 阅读 · 0 评论 -
衡量嵌入向量的相似性的方法
- **文本/语言任务**(如语义相似性): - **首选余弦相似度**:文本嵌入向量(如Word2Vec、BERT)通常已归一化,方向相似性更重要。 - *示例*:判断“人工智能”与“机器学习”的语义相似性,余弦相似度可忽略词频差异,聚焦语义方向。 - **数值型数据**(如图像特征、用户评分): - **欧氏距离或点积**:需保留向量长度信息(如像素强度、评分高低)。 - *示例*:图像特征向量中,欧氏距离小表示像素差异小,图像内容更相似。 - **离散特征/集合原创 2025-06-06 16:11:08 · 37 阅读 · 0 评论 -
传统的将自然语言转化为嵌入向量的核心机制是:,将离散的语言符号转化为连续的语义向量,其核心依赖“上下文决定语义”的假设和神经网络的特征提取能力。
传统的将自然语言转化为嵌入向量的核心机制是:,将离散的语言符号转化为连续的语义向量,其核心依赖“上下文决定语义”的假设和神经网络的特征提取能力。原创 2025-06-06 16:09:29 · 35 阅读 · 0 评论 -
揭秘model.generate()参数配置
Hugging Face Transformers库的model.generate()方法是文本生成的核心接口,支持丰富的参数配置。主要参数包括:输入控制(input_ids、attention_mask)、生成长度控制(max_length、max_new_tokens)、解码策略(贪心搜索、采样搜索、束搜索)、生成质量控制(repetition_penalty、no_repeat_ngram_size)等。此外,还支持高级参数如inputs_embeds,允许直接输入嵌入向量进行生成,适用于自定义嵌入或原创 2025-06-06 15:56:55 · 11 阅读 · 0 评论 -
什么是强化学习:设置奖励函数最为loss, 监督学习:标签准确率作为loss
# 什么是强化学习:设置奖励函数最为loss, 监督学习:标签准确率作为loss## 什么是强化学习:在复杂环境中自主探索,适用于序列决策原创 2025-06-06 15:46:40 · 96 阅读 · 0 评论 -
什么是零镜头泛化(Zero-Shot Generalization)
什么是零镜头泛化(Zero-Shot Generalization)? **零镜头泛化**是指模型在**未经过任何特定任务训练**的情况下,仅通过自然语言指令或提示(Prompt)就能完成该任务的能力。 - **核心特点**: - **无需任务特定数据**:模型从未见过该任务的输入-输出示例,甚至未针对该任务进行微调。 - **依赖预训练知识**:模型通过预训练(如海量文本数据)学习到通用语言规律和世界知识,再通过提示激活相关能力。 - **自然语言交互**:通过提示词(如“原创 2025-06-06 15:10:07 · 25 阅读 · 0 评论 -
怎么让大语言模型(LLMs)自动生成和优化提示词:APE
摘要: 论文提出自动提示工程师(APE)框架,利用大语言模型(LLMs)自动生成和优化提示词,减少人工干预。通过"生成-打分-迭代"流程,APE在零样本和少样本场景下(仅需5-10个示例)自动生成高质量提示词。实验表明,在24个任务中,APE生成的提示词准确率超越人工设计(如情感分析达94%),且可迁移至不同模型。该方法还优化了思维链提示,提升数学推理任务准确率(82%),并在真实性任务中取得平衡(真话率91%)。研究证明LLMs能自主设计高效提示词,为开发通用AI工具提供新方向。原创 2025-06-06 11:03:36 · 19 阅读 · 0 评论 -
强化学习(动态策略调整)与监督学习(相对静态)的核心区别
强化学习(动态策略调整)与监督学习(相对静态)的核心区别原创 2025-06-06 09:28:24 · 106 阅读 · 0 评论 -
什么是LLM强化学习
LLM强化学习**指的是将**强化学习(RL)技术应用于大型语言模型(LLM)的训练或优化过程**,通过让模型与环境交互、根据反馈信号调整参数,从而提升模型在特定任务上的性能(如对话连贯性、事实准确性、伦理合规性等)。原创 2025-06-06 09:26:23 · 20 阅读 · 0 评论 -
Prompt Tuning:生成的模型文件有什么构成
Prompt Tuning生成的模型文件本质是**预训练模型 + 优化后的提示参数**,通过轻量级调整适配特定任务。使用时需先加载原始模型和提示参数,再根据提示类型构造输入数据,最终实现高效推理。这种方法在保持模型泛化能力的同时,显著降低了微调成本,尤其适合低资源场景下的任务适配。原创 2025-06-05 20:01:01 · 293 阅读 · 0 评论 -
怎么下载IEEE模板:IEEE论文模板下载全攻略
下载IEEE模板的步骤如下:1.访问IEEE作者中心,点击"Download a template";2.进入模板选择器,选择对应期刊类型(如Transactions);3.找到目标期刊(如Knowledge and Data Engineering)并选择LaTeX模板类型;4.下载包含5个文件的模板包,其中bare_jrnl_new_sample4.tex是投稿主模板文件。整个过程可通过官网https://template-selector.ieee.org完成。(99字)原创 2025-06-05 18:59:13 · 82 阅读 · 0 评论 -
Transformers生成文本:max_new_tokens揭秘
在Hugging Face Transformers中,max_new_tokens参数用于限制模型生成的新token数量,通常只返回新生成的文本(不包括原始输入)。其核心作用包括控制生成长度和决定输出内容构成,可能仅含新token或完整序列(输入+生成)。使用inputs_embeds时输出通常仅包含新生成内容。建议通过检查输出形状和解码文本来验证生成内容,必要时需手动拼接原始输入以获取完整文本。该参数能有效控制生成长度,但需注意不同配置下的输出差异。原创 2025-06-04 17:13:31 · 45 阅读 · 0 评论 -
NLP中的input_ids是什么?
在自然语言处理中,input_ids是将文本转换为模型可处理数字序列的核心参数,通过分词器将文本映射为词汇表对应的ID。其结构通常为[batch_size, sequence_length],可能包含特殊标记如[CLS]或填充标记[PAD]。实际应用中需注意输入长度限制和批量处理时的填充对齐。代码示例展示了如何使用Hugging Face库从文本生成input_ids并输入模型,同时说明了生成新token时的处理方法和潜在问题。正确处理input_ids是确保模型理解文本的关键。原创 2025-06-04 17:05:09 · 142 阅读 · 0 评论 -
`<CLS>` 向量是 `logits` 计算的“原材料”,`logits` 是基于 `<CLS>` 向量的下游预测结果
简单说,`<CLS>` 是“语义大管家”,收集文本信息;`logits` 是“分类先锋”,基于这些信息给出原始预测。二者一前一后,让模型从“理解文本”过渡到“输出分类结果” ,是 NLP 模型完成下游任务的关键链路~原创 2025-06-04 16:58:06 · 135 阅读 · 0 评论 -
`tokenizer.decode` 出现乱码或异常输出,怎么处理
摘要: 在使用Hugging Face Transformers库时,tokenizer.decode出现乱码或异常输出的解决方案包括:1)确保模型与分词器严格匹配,加载时使用trust_remote_code=True;2)谨慎处理特殊token,先保留所有token再针对性清理;3)校验模型输出token的维度和数值是否合法;4)通过convert_tokens_to_string替代解码;5)检查生成配置如max_new_tokens等参数。核心思路是确保模型与分词器逻辑对齐、输出token合法,必要原创 2025-06-04 16:49:54 · 32 阅读 · 0 评论 -
NLP生成参数全解析:掌控AI输出的秘密:`temperature`、`top_p`、`top_k`、`do_sample`
NLP生成模型的关键参数包括temperature(控制随机性,低值精准、高值创意)、top_p(动态采样)和top_k(限定候选词),配合do_sample启用随机策略。附加参数如repetition_penalty避免重复,seed确保可复现性。参数组合需场景适配:低温度(0.4-0.7)适合代码生成,高温度(1.0-1.5)适用于创意写作。优化输出需平衡多样性与可控性,实验调整是关键。原创 2025-06-04 16:09:37 · 390 阅读 · 0 评论 -
Token挑选:相似度排序取最优
本文解析了基于相似度选取最佳token的代码实现。首先设置top_k=1以选取相似度最高的token,然后使用torch.topk函数获取索引并转换为token字符串。文章对比了convert_ids_to_tokens和decode方法的区别,指出decode能处理子词合并。核心逻辑是通过排序候选token并选取最优,适用于文本生成、语义搜索等场景。最后提醒注意张量维度和子词tokenizer带来的差异,需根据需求选择合适方法。该实现简洁高效,是NLP任务中常用的关键步骤。原创 2025-06-04 01:05:00 · 24 阅读 · 0 评论 -
张 词嵌入向量反编译结果解释
本文介绍了一种基于Qwen2-0.5B-Instruct大语言模型的心理学文本分类方法。通过加载预训练模型和分词器,从JSON格式数据集中读取心理测试文本及"理性"/"冲动"标签。采用提示工程优化技术,将心理学专家的初始提示词转换为可训练嵌入向量,并分段计算与词汇表的相似度以选择最佳token组合。训练过程中使用Adam优化器调整提示嵌入,通过余弦相似度匹配目标标签对应的token ID(理性/冲动)。该方法实现了对语句心理动机的自动分类,为行为分析提供技术支持。代码原创 2025-06-04 00:31:55 · 26 阅读 · 0 评论 -
大模型 提示模板 设计
摘要: 论文提出LangGPT框架,借鉴编程语言的结构化思想,将大模型提示设计重构为双层可复用模板。基础规范层(Syntax)定义输入参数、任务指令等语法结构,扩展迁移层(Semantic)支持模块化组件库和跨任务适配。实验显示,在情感分类(SST-2)和实体提取(CoNLL-2003)任务中,LangGPT较传统提示方法准确率提升4.4%-5.7%,跨领域复用性能衰减降低65%,用户设计效率提高40%。该框架为提示工程提供了标准化、可迭代的解决方案,显著降低非专家使用门槛。原创 2025-06-03 23:10:59 · 116 阅读 · 0 评论 -
qwen大模型在进行词嵌入向量时,针对的词表中的唯一数字还是其他的?
Qwen大模型进行词嵌入时,通过词表中的Token ID(唯一数字)索引嵌入矩阵生成向量。具体流程为:文本经BPE分词器拆分为Token并映射为Token ID,模型用这些ID作为行索引从嵌入矩阵中提取对应向量。词表定义Token与ID的映射,嵌入矩阵存储各ID对应的向量,因此词嵌入的核心是针对Token ID而非文字本身。这一机制将离散文本转化为连续向量,使模型能计算语义关系并执行语言任务。原创 2025-06-03 22:16:39 · 169 阅读 · 0 评论 -
字符编码全解析:ASCII、GBK、Unicode、UTF-8与ANSI
本文对比分析了常见字符编码方案的区别与关联:ASCII是最基础的英文编码,仅支持128个字符;GBK专门针对中文设计,兼容ASCII并扩展2字节表示汉字;Unicode为全球字符分配唯一码点,但不涉及存储实现;UTF-8是Unicode的可变长编码方式,1-4字节兼容ASCII,已成为互联网主流;ANSI则是Windows系统中区域默认编码的统称(如中文系统对应GBK),存在跨平台兼容性问题。现代开发推荐使用UTF-8以实现多语言兼容,而旧系统中文处理可能涉及GBK。理解这些编码的特性与适用场景,可有效避免原创 2025-06-03 22:14:37 · 198 阅读 · 0 评论 -
中英混合编码解码全解析
本文解析了中英文混合编码与解码的原理,重点围绕UTF-8标准展开。编码时,中英文字符均转为字节序列(英文1字节,中文3字节);解码时通过字节开头标识自动区分字符长度实现还原。UTF-8采用可变字节长度设计,兼容ASCII并覆盖多语言字符。文章通过Python示例演示了正确编解码过程,并指出不同编码标准混用会导致乱码。核心在于统一使用UTF-8标准维护字节与字符的映射关系。原创 2025-06-03 22:10:01 · 331 阅读 · 0 评论 -
Qwen与Llama分词器核心差异解析
Qwen和Llama分词器在技术基础与语言适配性上有显著差异。Qwen采用BBPE技术,词库覆盖15万+Token,对中文和多语言支持更优,1Token可表达1.5-1.8个中文字符,压缩率高;而Llama基于BPE和SentencePiece,原始词库仅3.2万Token,中文需拆分为多个Token,效率较低。通用词映射设计基于BPE算法,需平衡语言覆盖、压缩效率和语义保留,通过定制词表和小样本优化适配不同需求。两者的差异主要体现在中文适配优先级和词表设计侧重上。原创 2025-06-03 21:49:21 · 507 阅读 · 0 评论 -
移动AI神器GPT Mobile:多模型自由切换
GPT Mobile是一款开源的安卓AI工具,支持本地部署和多模型交互。主要功能包括:连接OpenAI、Anthropic等主流AI平台;支持GPT-4 Vision多模态图像分析;提供悬浮窗多任务操作;可自定义API、参数和系统提示;采用现代化界面设计并保障数据安全。典型应用场景涵盖对话交互、多模型对比、图像分析、代码调试等内容创作,支持批量文本处理和对话导出。作为开源项目,鼓励用户参与开发改进。原创 2025-06-02 19:31:15 · 394 阅读 · 0 评论 -
无标注数据如何提升LLM推理能力?熵最小化 提升LLM自信度
摘要: 研究提出**熵最小化(EM)**方法,通过降低大语言模型输出的不确定性,显著提升其在数学、编程等复杂任务中的表现,且无需标注数据。三种实现方式包括无监督微调(EM-FT)、基于负熵的强化学习(EM-RL)和推理时调整(EM-INF),其中EM-INF效率达传统方法的3倍。关键发现表明,该方法有效释放预训练模型潜力,但依赖模型基础能力且仅适用于自信度与正确性相关的任务。研究为低成本优化LLM推理性能提供了新思路,凸显模型自身能力的重要性。原创 2025-06-01 14:15:54 · 161 阅读 · 0 评论 -
模型警告:未设填充标记?自动用结束符有风险!Setting `pad_token_id` to `eos_token_id`:128001 for open-end generation.
摘要: 当模型检测到未设置pad_token_id时,会自动将其设为eos_token_id(如128001),但这可能导致语义冲突(如误将填充符视为结束符)。解决方案需根据模型类型调整: 支持填充标记的模型(如BERT):需显式设置pad_token,并生成attention_mask; 依赖掩码的模型(如Llama):无需pad_token_id,但必须提供attention_mask; 自定义填充标记:可手动添加[PAD]并扩展词表。 关键点:优先查阅模型文档,确保pad_token与eos_toke原创 2025-05-31 23:09:25 · 32 阅读 · 0 评论 -
LLm中 float16和 float32 区别,为什么训练不能采用float16--梯度消失
在深度学习中,float16(半精度)与float32(单精度)的主要区别在于数值范围和精度。float16仅有16位,数值范围较小(±6.5×10^4),精度较低(3-4位有效数字),当损失值达到0.0001时,容易出现梯度下溢或舍入误差,导致训练停滞或模型发散。相比之下,float32提供更大的数值范围和更高精度,更适合训练。解决方案包括混合精度训练、梯度缩放和优化器调整,以兼顾计算效率和稳定性。原创 2025-05-31 22:04:07 · 249 阅读 · 0 评论 -
Transformer模型输入处理必知要点:The attention mask and the pad token id were not set
摘要:Transformer模型处理输入时需正确设置attention_mask和pad_token_id,否则可能导致错误。未设置attention_mask会使模型无法区分有效输入与填充值,影响计算准确性;未指定pad_token_id时系统会临时用eos_token_id替代,可能引发语义冲突。解决方案包括:1)通过分词器设置pad_token_id;2)处理数据时生成并传递attention_mask;3)在模型调用中明确使用attention_mask参数。这些措施能确保模型正确识别有效输入位置,原创 2025-05-31 22:00:19 · 31 阅读 · 0 评论 -
qwen 2.5 并行计算机制:依靠 PyTorch 和 Transformers 库的分布式能力
Qwen2.5利用PyTorch和Transformers库实现了模型并行计算,通过device_map="auto"参数将不同模型层自动分配到多GPU上。这种层间并行机制在前向传播和反向传播时协同工作,既能优化显存使用,又能提升大型模型(如7B参数模型)的训练效率。虽然数据处理阶段未显式并行,但模型推理和训练时自动实现了多GPU并行计算。该方法避免了单GPU显存不足的问题,显著加速了计算过程。未来可考虑结合数据并行技术进一步优化。原创 2025-05-31 16:28:19 · 342 阅读 · 0 评论 -
训练与推理:模型精度的关键差异
深度学习训练和推理阶段对模型权重精度要求存在显著差异:训练阶段通常采用FP32或混合精度(FP16/BF16)以保证数值稳定性和梯度计算准确性,而推理阶段更注重效率,常使用FP16或INT8量化来提升速度、降低内存占用。关键差异体现在训练需要高精度防止梯度问题,推理则能容忍一定误差。实际应用中建议训练时采用混合精度,推理时根据场景选择量化方案(如云端用FP16,边缘设备用INT8),并可通过量化感知训练优化低精度模型效果。原创 2025-05-31 10:51:41 · 126 阅读 · 0 评论 -
DDP与FSDP:分布式训练技术全解析
DDP与FSDP是两种主流的深度学习分布式训练技术。DDP采用数据并行策略,各设备保存完整模型副本,通过梯度同步确保参数一致,适合中小规模模型。FSDP采用参数分片技术,将模型参数、梯度和优化器状态分散存储,显著降低内存占用,适用于超大规模模型训练。两者在内存占用、通信开销和适用场景上存在显著差异:DDP梯度同步通信开销较大但实现简单,FSDP内存效率更高但计算过程需频繁重构参数。PyTorch提供了两种技术的API支持,开发者可根据模型规模选择合适的并行策略。原创 2025-05-30 23:38:47 · 329 阅读 · 0 评论 -
多卡训练核心技术详解
本文详细介绍了多卡训练的核心技术,包括分布式环境初始化、模型并行化、数据分片和梯度同步。通过torchrun命令启动多进程训练,使用NCCL后端进行GPU通信。模型采用数据并行(DDP)自动处理梯度同步,数据通过DistributedSampler分片到不同GPU。文中还解释了广播、规约等进程同步操作,并演示了4个GPU协同训练的工作流程。这些技术确保了模型在多卡环境下的高效训练和参数一致性。原创 2025-05-30 23:37:22 · 148 阅读 · 0 评论 -
投稿 IEEE Transactions on Knowledge and Data Engineering 注意事项
本文总结了向IEEE Transactions on Knowledge and Data Engineering投稿的注意事项。首先需注册IEEE账户,准备符合IEEE模板的论文,所有作者需注册ORCID并关联账户。投稿需通过新系统https://ieee.atyponrex.com完成,流程包括选择文章类型、上传手稿、填写作者和项目信息、选择关键词等,并强调必须提交Cover Letter。投稿后可通过系统跟踪审稿进度,包括编辑处理、专家评审等阶段。若需修改,应认真回应审稿意见并按规范重新提交。文中还提原创 2025-05-30 20:51:27 · 222 阅读 · 0 评论 -
基于问题导向提示调优策略的小样本中文情感分类方法研究
本文提出了一种基于问题导向提示调优策略(QPT)的小样本中文情感分类方法。通过构建可训练连续提示模板,将分类任务转化为预训练模型擅长的完形填空任务,并动态优化提示词嵌入向量。在5-shot设置下,模型在测试集上达到89.23%的准确率,显著优于随机基准。实验表明,该方法能有效利用预训练语言模型的先验知识,提升小样本场景下的分类性能。未来可结合知识增强和低秩优化等技术进一步改进。原创 2025-05-30 00:52:24 · 50 阅读 · 0 评论 -
Amazon Q和悟空IM全面解析
文章摘要 Amazon Q是亚马逊推出的AI助手,包含企业版(处理内部数据)、开发者版(辅助编程)、QuickSight版(商业智能分析)、Connect版(客服支持)和Supply Chain版(供应链优化)。悟空IM则是高性能即时通讯服务,具备自研协议、百万级并发、强安全性及多场景支持(如聊天、物联网、直播弹幕等),并提供多平台SDK。两者分别聚焦AI赋能行业与通用通讯解决方案。原创 2025-05-29 19:15:00 · 65 阅读 · 0 评论 -
模型自学推理:自信驱动进化
INTUITOR是一种新型无监督学习框架,让大语言模型通过自我置信度驱动推理能力的提升。其核心流程分为三阶段:首先由策略模型生成多样化候选答案;接着参考模型计算每个答案的自我确定性(通过KL散度评估模型对推理步骤的置信度);最后将置信度作为奖励信号,通过强化学习优化策略模型。该方法摆脱了对人工标注或标准答案的依赖,在数学推理和代码生成任务中表现出色,甚至超越有监督方法。实验显示,经过INTUITOR训练的模型能自发形成结构化推理习惯,如分步解题、添加注释等,展现出更强的泛化能力。这一技术突破为开发自主学习的原创 2025-05-29 00:10:25 · 258 阅读 · 0 评论