自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(59)
  • 收藏
  • 关注

原创 从零到顶会:NLP科研实战手册

《NLP研究者从零到顶会的实战指南》摘要:本文系统梳理了一位连续发表ACL/EMNLP等顶会论文的NLP研究者成长路径。核心内容包括:1)科研入门需掌握深度学习基础与PyTorch技能;2)通过arXiv/GitHub等平台追踪前沿;3)研究方向选择建议"热点+经典任务"组合;4)创新点可从论文局限性或综述展望切入;5)论文写作要讲好故事,注重图表设计;6)投稿后需善用GitHub/Twitter扩大影响力。文中还提供了CS224N等精选学习资源、写作工具及配色网站推荐。强调科研是系统性

2025-09-14 22:52:46 1193

原创 LeetCode-day2:字母异位词分组分析

题号:LeetCode #49 Group Anagrams语言:Pythonsortedordtuple。

2025-12-27 00:01:52 344

原创 LeetCode 刷题必备:Python 基础速查

原则:能用内置函数,绝不手写循环!

2025-12-26 16:53:59 210

原创 彻底搞懂 LeetCode 第一题「两数之和」——从暴力到哈希,零基础也能看懂!

用空间换时间哈希表(Hash Table):一种数据结构,支持O(1) 平均时间的插入、查找、删除Python 中的字典dict就是哈希表。

2025-12-24 23:23:07 275

原创 如何批量删除B站动态

摘要:本文介绍如何使用JavaScript脚本批量删除B站动态,绕过悬停菜单触发和Chrome安全拦截。通过分析B站前端特性,发现动态菜单需模拟mouseenter事件而非click,且CSS类名易变。解决方案包括:使用XPath精准定位"删除"按钮、手动派发鼠标事件、绕过Chrome的Self-XSS防护(需输入allowpasting)。脚本支持自动滚动、冷却防封控、跳过置顶动态,并详细解释了技术原理。注意需控制删除频率以防账号异常,建议分批操作。该方案可高效清理历史动态,10分钟可

2025-11-22 15:23:31 1017

原创 大模型推理参数全解析:temperature、top_k、top_p、num_beams 到底怎么用?

大模型推理参数解析:temperature控制创造力(低值更保守,高值更随机);top_k限制候选词数量;top_p动态选择累计概率达标的最小词集;num_beams用于束搜索追求最优解。参数优先级:num_beams>1时忽略采样参数,否则按temperature→top_k→top_p顺序生效。实践建议:翻译/摘要用num_beams,创意写作用temperature+top_p,代码生成宜保守(temperature=0.2-0.4)。调参时先固定top_p=0.9,再调整temperature

2025-11-20 00:12:30 1165

原创 一文了解RoPE(旋转位置编码)

RoPE:让大模型理解词语顺序的旋转魔法 RoPE(旋转位置编码)是一种革命性的技术,解决了大模型理解词语顺序的关键问题。与传统位置编码不同,RoPE通过旋转词向量来表示位置信息:将词向量拆分为两部分,对不同位置施加特定角度的旋转变换。这种设计具有三大优势:天然支持超长文本(周期性旋转可外推)、自动编码相对位置关系(角度差表示距离)、无需额外参数(纯数学变换)。目前RoPE已成为Llama、ChatGLM等主流大模型的标准配置,是其处理长文本和保持上下文连贯的核心技术。

2025-11-09 17:20:50 1772

原创 大模型开发入门指南:从零到构建系统的完整工具链(附学习路径)

本文系统梳理了大模型开发的完整工具链,提供从入门到进阶的学习路径。核心内容包括:1)基础必备的HuggingFace生态圈(Transformers/Datasets);2)高效微调工具PEFT+LLaMA-Factory;3)应用开发框架LangChain/LlamaIndex;4)高性能推理部署方案vLLM/TGI。针对不同需求推荐学习重点:研究者侧重模型微调,开发者优先掌握应用构建。文章强调工具链组合的重要性,帮助开发者从API调用进阶到系统构建能力,并提供阶段性学习建议和实战案例。

2025-10-19 20:56:56 1046

原创 Bert:从“读不懂上下文”的AI,到真正理解语言

【150字摘要】 2018年谷歌提出的BERT模型彻底改变了AI理解语言的方式。其核心创新在于双向上下文理解:通过"完形填空"式预训练(Masked LM)和句子关系预测(NSP),使AI能同时捕捉前后文信息。采用"预训练+微调"范式,BERT在11项NLP任务上刷新纪录,部分表现超越人类。模型基于Transformer架构,通过词嵌入、位置嵌入和段落嵌入融合多层次语义。BERT的成功引爆了预训练模型热潮,为ChatGPT等大模型奠定基础,证明了通用语言理解能力对AI

2025-10-14 16:11:21 1014

原创 论文阅读《LIMA:Less Is More for Alignment》

Meta AI最新研究揭示:仅需1000条精选数据就能让650亿参数大模型LIMA达到与GPT-4相近的表现。实验显示,大模型99%的能力来自预训练阶段,微调仅需教会其表达方式。研究发现:1)数据质量比数量更重要;2)多样化数据更有效;3)性能随数据量增长呈边际递减。虽然LIMA在43%情况下匹敌GPT-4,但安全性能仍需加强。该成果颠覆了"数据越多越好"的传统认知,为AI训练提供了更高效的新思路。

2025-10-14 15:45:28 815

原创 大模型推理全解析:从你提问到它回答,中间到底发生了什么?

大模型推理全过程解析:从输入到输出的智能生成之旅。当用户提问时,模型首先将文本分词并转换为向量表示,通过Transformer层进行语义理解。生成答案时采用自回归方式逐字输出,借助KVCache机制缓存中间计算结果,大幅提升推理效率。现代大模型通过预训练海量数据、指令微调以及优化的注意力机制(如RoPE位置编码和稀疏注意力),实现了长上下文记忆和流畅的对话能力。未来发展方向包括无限上下文支持、显存优化和多模态处理等技术突破。这一精密运算过程,展现了AI如何将庞大数据转化为富有逻辑的智能回应。

2025-10-13 14:05:11 859

原创 一文了解大模型分词技术

需求推荐方案纯英文任务BPE 或 WordPiece中文或中英混合✅兼容性要求高SentencePiece(通用性强)复现 BERTWordPiece复现 GPTBPE 或 Byte-level BPE大模型训练✅SentencePiece 是主流选择分词是大模型的“第一道门”。token 数量更少 → 训练更快语义单元更合理 → 模型理解更好支持多语言 → 应用更广。

2025-10-10 14:05:53 1039

原创 一文了解Function Calling、MCP、Agent联系与区别

【AI时代的"打工人"分工图谱】大模型像知识渊博的学霸,但需要三个"帮手"才能真正做事:Function Calling(执行专员)负责单步调用API;MCP(工具管理员)统一管理工具接口标准;Agent(项目经理)具备自主规划决策能力。三者形成层级关系:Agent依赖Function Calling执行具体操作,Function Calling的工具通过MCP标准化管理。这种分工使AI从单纯聊天升级为能完成复杂任务的数字员工,推动智能应用从"响应指令&qu

2025-10-09 15:08:23 918

原创 RMSNorm 是什么?为什么大模型都在用它?

摘要: RMSNorm是LayerNorm的轻量级变体,通过省去均值计算(仅保留均方根归一化),在大语言模型(LLM)中广泛替代LayerNorm。其优势包括:1)计算更快,训练速度提升5%-8%;2)显存占用更少,支持更大batch;3)在LLM任务中性能相当甚至更优(如LLaMA实测效果)。RMSNorm契合LLM输入分布稳定的特性,成为高效训练的“标配”,但传统CV任务仍需谨慎使用。代码实现仅需数行,体现AI工程对计算效率的极致优化。 (98字)

2025-09-19 15:10:53 689

原创 大语言模型(LLM)入门全解

大语言模型(LLM)入门指南:从定义到训练的核心要点 本文系统梳理了LLM的关键概念与训练流程:1)定义LLM为10亿+参数的预训练语言模型,具备涌现能力、上下文学习等特质;2)详解四大核心能力(涌现、上下文学习、指令遵循、逐步推理)及多语言支持等特点;3)解析三阶段训练流程(预训练→监督微调→强化学习),比较RLHF与DPO方案差异;4)指出LLM的局限性(幻觉问题)与发展方向(高效小模型、多模态应用)。通过技术图解与案例,帮助读者建立完整的LLM认知框架。

2025-09-15 14:27:22 1947 1

原创 一文了解大模型压缩与部署

大模型压缩与部署关键技术 针对大模型(如Qwen-72B)部署难题,核心解决方案包括: 1️⃣ 量化技术:INT4/AWQ量化可减少75%显存,速度提升3倍,性能损失<2%,适配边缘设备; 2️⃣ 知识蒸馏:将7B模型压缩至1.8B,速度提升4倍,适合手机端专用场景; 3️⃣ MoE架构:如Mixtral 8x7B仅激活部分专家,实现"万亿参数、十亿计算"; 4️⃣ 高效部署:vLLM+连续批处理提升吞吐5倍,TensorRT-LLM优化多卡推理,llama.cpp支持手机端INT4运行

2025-09-10 23:47:45 829

原创 一文了解 Agent 智能体

《Agent智能体:从问答机器到AI助手的进化》 摘要:Agent智能体通过整合大语言模型(LLM)、记忆系统、规划能力和工具调用,将被动应答的AI升级为能思考、会行动的智能助手。核心架构包括决策大脑、记忆存储、规划反思和工具系统三大主流范式:ReAct的"边想边做"、Plan-and-Solve的"先想后做"以及工具调用功能。高级能力涵盖记忆存储、自我反思和多智能体协作。开发框架推荐LangChain等工具,并需关注任务完成率等评估指标。未来趋势指向Agent操作系

2025-09-10 11:44:33 1114

原创 一文了解 RAG 与知识增强

用户提问│▼[HyDE 假设文档生成] → [混合检索:语义+关键词]│▼[重排序:BGE Reranker 精选 Top-3]│▼[构造 Prompt + 大模型生成带引用答案]│▼输出 → 可信、可溯源、无幻觉🎓 RAG = 给大模型配一个“超级外脑”不是替代大模型,而是让它“如虎添翼”。

2025-09-10 10:44:45 1354

原创 一文了解大模型微调与对齐

🌟大模型微调与对齐技术解析🌟 本文系统介绍了大模型的两大核心技术: 1️⃣微调(Fine-tuning)- 让模型掌握新技能 全参数/参数高效/指令微调三种方式 LoRA、Adapter等轻量化方案受青睐 2️⃣对齐(Alignment)- 确保模型输出安全可靠 主流方法:RLHF、DPO及其变体 目标:符合人类价值观,避免有害输出 📌核心区别: 微调=提升任务能力 对齐=规范输出行为 💡应用场景覆盖企业、教育、医疗等领域 2025趋势:DPO取代RLHF,多模态对齐兴起 (摘要共145字,涵盖核心

2025-09-09 21:54:04 1269

原创 一文了解大模型推理优化

⚡大模型推理优化技术解析:让大语言模型更高效运行的关键方法 本文深入探讨了大语言模型(LLM)推理优化的核心技术。大模型推理存在三大痛点:速度慢(自回归生成导致延迟累积)、显存占用高(KVCache膨胀)和并发性能差(批处理效率低)。针对这些问题,文章系统介绍了六大优化技术:1)KVCache缓存避免重复计算;2)PagedAttention实现显存分页管理;3)模型量化减少参数存储;4)批处理提升GPU利用率;5)模型蒸馏缩小模型规模;6)专用推理引擎底层优化。文章还对比了主流推理框架的适用场景,并指出未

2025-09-05 17:00:44 1197

原创 从指令微调到 RLHF:大模型是如何“学会听话”的?

摘要:大模型通过指令微调和RLHF技术实现智能化交互。指令微调教会模型理解任务格式(如翻译、分类),使用"指令-答案"数据进行监督学习。RLHF通过人类反馈强化学习优化模型输出,使其更符合人类偏好(如礼貌、简洁)。两者协同作用:指令微调解决"会不会做",RLHF提升"做得好不好"。典型案例ChatGPT结合了这两种技术,但RLHF存在过度讨好、回避问题等副作用。未来发展可能转向AI自动反馈(RLAIF)等更高效方法。

2025-09-05 15:49:23 592

原创 从 GPT 到 LLaMA:解密 LLM 的核心架构——Decoder-Only 模型

本文系统解析了当前主流大语言模型(LLM)的核心架构——Decoder-Only模型。从GPT到LLaMA再到GLM,这些模型虽然名称各异,但都基于仅由Decoder堆叠的Transformer架构。文章详细对比了三大模型的特性:GPT开创了CLM预训练范式,LLaMA通过RoPE和GQA优化推理效率,GLM初期采用独特的空白填充训练任务。分析指出Decoder-Only胜出的四大原因:生成能力突出、任务统一性强、涌现能力显著、工程实现友好。当前几乎所有主流LLM都采用这一架构,印证了"简单、专注

2025-09-04 23:53:23 1670

原创 从BERT到T5:为什么说T5是NLP的“大一统者”?

摘要: Google提出的T5(Text-to-Text Transfer Transformer)通过Encoder-Decoder架构统一了NLP任务,将分类、翻译、问答等均转化为“文本到文本”的生成问题。相较于BERT(仅编码器)和GPT(仅解码器),T5兼具理解与生成能力,并采用SentencePiece分词、RMSNorm优化等技术。其核心创新在于以统一格式(任务前缀+输入→输出)处理多样化任务,结合C4数据集预训练,实现了多任务通用建模。T5的“大一统”范式为后续大语言模型(如GPT系列)奠定了

2025-09-04 23:35:43 1213

原创 从BERT到RoBERTa、ALBERT:揭秘Encoder-only预训练模型的进化之路

模型核心创新参数量训练数据优势BERTMLM + NSP1.1亿 / 3.4亿13GB开创预训练范式RoBERTa去NSP + 大数据 + 大Batch3.4亿160GB性能更强,训练更鲁棒ALBERT参数分解 + 共享 + SOP5900万16GB参数更少,效率更高尽管如今LLM(大语言模型)如GPT-4、Claude、通义千问等风头正盛,但BERT及其家族仍是NLP的基石。在标注数据丰富的场景下,BERT类模型依然高效、稳定、可解释。在边缘设备。

2025-09-03 17:22:44 721

原创 手撕 Transformer:从零实现一个完整模型(附 PyTorch 代码详解)

这篇文章详细讲解了如何从零开始实现一个完整的Transformer模型,并附有PyTorch代码详解。主要内容包括: 整体架构:采用标准的Encoder-Decoder结构,包含词嵌入、位置编码、多头注意力等核心模块。 核心组件实现: MultiHeadAttention:实现缩放点积注意力和因果掩码 自定义LayerNorm和MLP前馈网络 Encoder和Decoder层的残差连接设计 正弦/余弦位置编码 模型训练流程: 字符级tokenizer构建 前向传播六步骤详解 目前只实现了推理功能,建议补充训

2025-09-01 16:35:30 1322

原创 Transformer:从零理解“Attention Is All You Need”

想象你在阅读一段文字,看到“它”时,你会自动回看前文,寻找“它”指的是谁。注意力机制 = 模型的“回看”能力它让模型在处理某个词时,能“关注”输入中其他相关的词。Transformer 没有循环结构,如何知道词的顺序?位置编码(Positional Encoding)将位置信息(1, 2, 3...)编码为向量,加到词向量上:✅ 这样,模型就能区分 “猫追狗” 和 “狗追猫”。模块作用捕获全局依赖,实现“任意词看任意词”Multi-Head多角度学习语义关系告诉模型词序信息。

2025-09-01 12:51:12 2155

原创 为什么你的模型总调不好?可能是这些参数和指标没搞懂!

本文系统梳理了神经网络训练与评估的核心概念。训练部分详解了学习率、Batch Size、优化器、损失函数等关键参数的选择技巧,推荐使用AdamW优化器和ReLU激活函数。评估部分重点介绍了准确率、精确率、召回率、F1分数等指标,强调在类别不平衡时F1分数比准确率更重要。文章通过实例说明各参数的作用,并提供代码示例,帮助读者理解如何调参和评估模型性能。

2025-08-17 22:19:53 1165

原创 深度学习的“智能导航”:Adam 优化器到底强在哪?

Adam 是一个“聪明的梯度下降”——它记住过去的方向(动量),感知当前的陡峭程度(自适应学习率),并自动调节每一步的大小,让模型更快、更稳地找到最优解。它是深度学习的“自动驾驶系统”,也是你训练模型时最值得信赖的伙伴。

2025-08-16 16:17:21 1516

原创 机器学习中的“梯度”到底是什么?为什么“梯度下降”无处不在?

问题回答梯度是什么?是一个向量,指向函数增长最快的方向梯度下降是什么?沿着负梯度方向一步步走,寻找函数最小值为什么用它?它是让模型“自动学习”的核心机制它怎么用?计算损失函数对参数的梯度,然后更新参数有哪些变体?BGD、SGD、Mini-batch SGD、Adam 等会遇到什么问题?学习率、局部最优、梯度消失/爆炸。

2025-08-16 15:23:02 1207

原创 大模型导师之大模型研究生90天进阶学习计划表

(3个月,每周6天,每天2-3小时),目标是:✅ 系统掌握大模型核心知识✅ 熟练使用 HuggingFace、LoRA、RAG 等工具✅ 完成2个实战项目✅ 具备独立科研能力,为后续发论文打下坚实基础。

2025-08-14 22:10:27 685

原创 什么是朴素贝叶斯?一句话说清楚:它就是“基于经验做判断”的AI版

朴素贝叶斯是一种基于概率统计的分类算法,它通过分析历史数据中特征与结果的关系来进行预测。该算法的核心在于利用贝叶斯定理计算条件概率,并假设各特征相互独立("朴素"假设)。虽然这个独立性假设在现实中往往不成立,但算法在文本分类领域(如垃圾邮件识别、情感分析)表现出色。其优势在于计算简单、训练速度快,尤其适合小规模数据集,但存在无法处理特征相关性和语序的局限性。作为机器学习的基础算法,朴素贝叶斯因其高效稳定的特点,至今仍是许多分类任务的基准解决方案。

2025-08-13 15:20:47 518

原创 什么是 TF-IDF?一句话说清楚:它就是文本里的“关键词探测器”

TF-IDF 是一种自动提取关键词的算法,它通过“词出现得多不多”和“这个词普不普遍”两个维度,判断一个词是不是某篇文章的“核心主题词”。就像你读完《Attention is all you need》后说:“哦,这篇主要讲的是‘Transformer’,TF-IDF 就是让计算机也能做到这一点。TF(词频):这个词在这篇文章里出现得多吗?→ 局部热度IDF(逆文档频率):这个词在其他文章里也常见吗?→ 全局稀有度:又高频又稀有的词,才是真正的关键词!

2025-08-13 15:11:38 953

原创 NLP 入门第一课:从“看字”到“懂话”,自然语言处理到底在做什么?

自然语言处理(NLP)是让计算机理解、处理和生成人类语言的技术,经历了规则、统计和深度学习三次技术跃迁。NLP可完成中文分词、文本分类、机器翻译等核心任务,通过词向量等技术将文字转化为数字处理。从早期One-Hot编码到Word2Vec、ELMo,再到BERT等预训练模型,NLP不断突破语言歧义等技术难题,使机器能更精准地理解人类语言,已广泛应用于智能助手、自动问答等场景。

2025-08-07 17:05:49 797

原创 如何快速复现 GitHub 上的大模型项目?这份指南告诉你!

在深度学习和机器学习领域,GitHub 是一个巨大的资源库,但复现实验往往充满挑战。本文将为你提供一套标准化的操作流程,帮助你顺利克隆项目、创建环境、下载模型,并解决常见的问题。无论你是初学者还是有经验的研究者,这份指南都将为你节省大量时间!

2025-07-28 16:06:29 1267

原创 从矩阵表示到卷积神经网络(CNN)与循环神经网络(RNN)

本文系统介绍了神经网络的核心概念与应用。首先阐述了矩阵表示在简化神经网络计算中的重要作用,能有效提升运算效率。接着对比分析了全连接层与卷积神经网络(CNN)的差异,重点讲解了CNN通过卷积核提取局部特征的优势及其在图像处理中的应用。针对序列数据,详细介绍了循环神经网络(RNN)及其变体LSTM、GRU的工作原理,包括文本数字化表示方法和RNN处理序列依赖关系的能力,同时指出其存在的长期依赖问题。最后总结了矩阵表示、CNN和RNN各自适用的场景和优势。本文内容基于B站up主飞天闪客的教学视频整理而成。

2025-07-28 13:39:14 1136

原创 从函数到神经网络:一文看懂机器学习的核心思想

本文通俗易懂地介绍了机器学习中的神经网络原理。从基本函数概念出发,阐述了简单线性函数的局限性,进而引入非线性激活函数和神经网络结构。详细解释了神经元运算、前向传播、反向传播和梯度下降等核心机制,并讨论了过拟合、欠拟合等常见问题及其解决方法。文章强调神经网络本质上是通过调整参数来逼近未知函数的过程,是一种从数据中自动学习复杂函数关系的数学工具。全文用简单直白的语言,将复杂的神经网络原理分解为易于理解的基础概念,适合初学者入门学习。

2025-07-23 23:54:14 1417

原创 如何将多台电脑用统一账户连接服务器

摘要:本文分享了从游戏本迁移到轻薄本时,如何顺利转移SSH密钥并配置远程开发环境的经验。详细介绍了密钥复制、目录权限设置(推荐使用GitBash)、VSCode远程连接配置等关键步骤,并针对常见问题(如Windows权限设置、SSH配置文件格式错误)提供了解决方案。作者强调正确管理密钥权限和规范配置文件格式的重要性,帮助开发者高效完成环境迁移,确保无缝连接服务器。文末附有测试方法和实用建议,适合面临类似迁移需求的开发者参考。

2025-07-23 00:37:30 614

原创 什么是联邦学习?

联邦学习:数据不出门,智慧走出去 联邦学习是一种分布式机器学习方法,允许多个参与方(如医院、银行、手机用户)在不共享原始数据的情况下,通过交换模型参数(如梯度、权重)协作训练全局模型。其核心是“数据不出本地,仅共享学习成果”,既保护隐私(符合GDPR等法规),又能打破数据孤岛,提升模型性能。 工作流程:中央服务器下发初始模型→各参与方本地训练并上传参数→服务器聚合更新→循环迭代优化。 类型:横向联邦学习(不同样本,相同特征)、纵向联邦学习(相同样本,不同特征)、联邦迁移学习(样本特征均不同)。 应用:医疗(

2025-07-22 15:56:38 1066

原创 LLM前沿研究方向及论文

本文系统梳理了大语言模型(LLM)的研究进展与应用方向。理论研究聚焦模型架构优化、训练机制和数据方法创新;跨领域应用涵盖科研辅助、医疗诊断、教育培训、政务法律和金融分析等场景;技术优化涉及推理能力增强、轻量化部署和安全可控等关键问题;同时探讨了伦理治理、版权争议等社会议题。未来研究趋势包括自适应学习、跨文化建模和人机协作系统。建议选题应结合技术热点与实际需求,重点关注多模态融合、联邦学习等前沿方向,并注重论文的实践复现性。该框架为LLM的学术研究和产业落地提供了系统性参考。

2025-07-22 15:27:49 1541

原创 基于REST API的蛋白质结构数据批量下载

该架构每小时可处理超过50,000个结构下载任务,已通过百万级数据集的稳定性测试验证。文件自动分割为多个区块并行下载,最后合并完整文件。避免单目录文件过载,提升存储检索效率。

2025-02-26 20:04:47 1002

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除