- 博客(115)
- 收藏
- 关注
原创 windows电脑怎么蹭无线网
本文分享了一种简单获取邻居WiFi密码的方法。通过手机万能WiFi破解软件连接目标网络后,在设置中生成网络分享二维码,用另一设备扫描即可显示WiFi名称和密码(包含加密方式)。该方法避免了复杂的Linux系统操作,适合Windows用户临时获取WiFi密码使用。文中提供了操作步骤图示说明,通过二维码解析轻松获取密码后即可在电脑上连接网络。
2025-07-08 17:10:17
131
原创 虚拟机忘记密码怎么办
本文介绍了Ubuntu虚拟机忘记密码时的重置方法:1)在登录界面重启系统;2)启动时按住Shift键进入GRUB菜单;3)选择恢复模式并按E键编辑启动参数;4)修改启动参数为rw single init=/bin/bash;5)使用passwd命令修改密码后重启。该方法通过进入单用户模式绕过系统认证,适用于忘记密码时的紧急重置场景。(149字)
2025-07-08 17:04:32
357
原创 一文搞懂KV-Cache
KV-Cache是Transformer模型推理加速的关键技术,通过缓存历史Key和Value矩阵避免重复计算。文章详细解析了KV-Cache的工作原理:在自回归生成过程中,仅需计算新token对应的Q向量,而复用缓存的K/V矩阵,大幅减少Self-Attention层的计算量。虽然会消耗额外显存(例如64G显存需求),但显著提升了推理效率。文章还解答了三个核心问题:1)KV-Cache节省了历史K/V的线性变换计算;2)不影响MLP层的独立计算;3)减少了block间的KV数据传输。该技术是典型"
2025-07-06 10:30:25
642
原创 从0开始实现Transformer
本文深入剖析Transformer核心组件,从零实现完整模型。首先介绍位置编码(Positional Encoding)的正余弦公式实现,通过矩阵运算将位置信息注入词嵌入。其次详解缩放点积注意力(Scaled Dot-Product Attention)的计算流程,包括QKV矩阵运算、掩码处理和Softmax权重分配。最后解析多头注意力机制(Multi-Head Attention)的并行计算架构,实现不同注意力头的信息捕获。文章配套代码示例和流程图解,帮助读者从理论到实践全面掌握Transformer实现
2025-07-06 10:28:21
771
原创 Transformer——FeedForward模块在干什么?
本文深入剖析Transformer中的FeedForward模块(MLP)作用机制。文章通过"Michael Jordan"预测"basketball"的示例,说明MLP如何通过升维矩阵、偏置调整和ReLU激活函数,从输入embedding中提取关键特征并添加特定语义方向(如篮球)。MLP包含两次线性变换:第一次升维提取特征,第二次降维重构语义,最终输出与原embedding融合形成新表征。整个过程通过矩阵行/列的巧妙设计实现特征对齐与语义增强,为Transforme
2025-07-05 11:14:14
504
原创 Transformer——Attention怎么实现集中注意力
本文深入探讨Transformer模型中的注意力机制(Attention),作为自然语言处理(NLP)模型(如BERT、GPT)的核心组件。作者从向量点积和Softmax函数的基础原理入手,解释如何通过点积衡量向量相似度,以及Softmax如何将输出转换为概率分布。重点分析了注意力机制如何通过Query、Key和Value矩阵动态调整单词向量表示,使相同单词在不同上下文中获得差异化语义(如"mole"在"American shrew mole"和"one m
2025-07-05 11:13:14
958
原创 一览Transformer整体架构
本文系统介绍了Transformer模型的核心架构和工作原理。首先阐述了输入序列的token化过程及位置编码方法,重点解析了Encoder和Decoder的结构差异:Encoder通过注意力机制融合上下文信息,Decoder则采用自回归方式结合mask机制进行序列生成。文章还提供了由浅入深的系列教程链接,涵盖注意力实现、前馈网络等核心模块,以及从零实现的实践指导。作者表示将持续更新相关资源于Github项目LLMHub,为读者提供Transformer模型的全面学习路径。本文整合了多个权威参考资料,对理解这
2025-07-04 09:31:33
929
原创 从0开始训练识别手写数字
摘要: 本文是神经网络原理与实现系列的最后一篇,通过代码实践讲解如何从零构建一个识别手写数字的神经网络。文章首先介绍如何创建Network类,包括权重和偏置的随机初始化,以及前向传播的实现。随后详细解释了随机梯度下降(SGD)算法的实现步骤,包括数据打乱、小批量划分和参数更新。重点剖析了反向传播算法(backprop)在梯度计算中的核心作用,并通过代码展示了如何利用小批量数据迭代优化模型。所有代码示例和MNIST数据集均提供在作者的GitHub仓库中,适合AI初学者和进阶开发者学习参考。
2025-07-04 09:30:36
951
原创 什么是反向传播?
《神经网络学习背后的核心算法:反向传播原理详解》摘要:本文深入浅出地解析了神经网络训练的核心机制——反向传播算法。文章通过可视化示例,从单神经元到多层网络逐步揭示:1)如何通过权重和偏置的调整改变输出值;2)反向传播如何将最后一层的误差信号逐层传递;3)链式法则在梯度计算中的关键作用。特别指出随机梯度下降的"醉汉式"优化特性,并通过数学公式阐明参数更新原理。文中配有直观示意图和代码实现链接(GitHub: LLMHub),帮助读者从理论到实践全面掌握这一超越80%使用者的核心算法。
2025-07-03 17:32:05
1008
原创 什么是梯度下降?为什么梯度下降能优化模型?
这篇技术文章介绍了神经网络中梯度下降算法的原理。作者通过成本函数衡量神经网络性能,并详细解释了如何利用梯度信息来优化权重和偏置参数。文章用直观的图示展示了单变量和多变量函数中的梯度下降过程,说明梯度向量如何指示参数调整方向和幅度。文中还预告了反向传播算法将在后续文章中展开,并提供了相关代码资源。全文以通俗易懂的方式讲解了神经网络参数优化的核心机制,为后续更深入的技术内容奠定了基础。
2025-07-03 17:31:02
885
原创 什么是神经网络
《神经网络入门:从原理到手写数字识别》是一篇介绍多层感知器(MLP)的科普文章。文章通过手写数字识别的例子,生动解释了神经网络的基本结构和工作原理:输入层接收28×28像素图像,隐藏层逐层提取特征,输出层给出分类结果。作者用直观的比喻说明神经元如何通过权重、偏置和sigmoid函数计算激活值,并解释了矩阵运算在神经网络实现中的重要性。文章还预告了后续将深入讲解梯度下降、反向传播等核心概念,并提供代码实现。全文用形象的图示和类比,帮助读者理解这个由13002个参数组成的复杂函数如何完成图像识别任务。
2025-07-02 15:04:24
1242
原创 RAG 信息检索:如何让模型找到‘对的知识’
这篇文章介绍了RAG(检索增强生成)系统的核心技术与实现流程。文章首先通过实际应用场景引出RAG技术的重要性,随后详细拆解了RAG系统的关键环节:文档解析、切分策略、向量嵌入和信息检索。重点阐述了文档段落嵌入和用户查询嵌入的实现原理,并深入分析了相似度检索的多种方法(Top-K、MMR)以及Reranker二次排序技术对检索效果的提升作用。文章还提供了相关技术文章的链接和开源资源地址,为读者提供了完整的RAG系统学习路径。全文逻辑清晰,技术要点突出,既适合初学者了解RAG概念,也可供开发者参考具体实现细节。
2025-07-02 15:02:50
923
原创 RAG-embedding篇
Embedding(嵌入向量)是将文字、图片、语音等“人类语言”转换为“计算机语言”的关键一步。它的作用,是把一句话或者一个词,变成一串可以进行数学运算的数字向量,让模型能“理解”我们在说什么。计算机不懂“情绪”“背景”“常识”,它只能处理数字。所以如果我们问它:“北京和上海哪个更大?”它必须先把这句话变成数字(向量),再去和知识库里的内容做匹配——这就靠 embedding。如果没有 embedding,AI 就像一个英语六级都没过的“文盲”,你说什么,它都回你:“对不起,我不明白。
2025-07-01 11:27:46
873
原创 一文搞懂RAG的切分策略
《RAG系统文档切分策略详解》介绍了构建检索增强生成(RAG)系统的5种关键文档切分方法:1)固定大小切分简单但易破坏语义;2)语义切分利用NLP技术保持上下文连贯性;3)递归切分结合固定长度与语义结构;4)基于文档结构的切分利用格式标记;5)基于LLM的智能切分精度高但成本大。文章强调实际应用中需混合策略,并推荐可视化工具ChunkViz辅助理解。该系列持续更新于GitHub项目LLMHub,涵盖RAG全流程技术解析。
2025-07-01 11:26:33
616
原创 什么是RAG?一文搞懂检索增强生成技术
本文介绍检索增强生成(RAG)技术的基本原理与应用价值。RAG通过"检索-生成"两阶段机制,将大语言模型与外部知识库结合,解决模型时效性不足、专业领域知识缺失和幻觉问题。系统核心包含数据预处理(文档切分/向量化)、检索模块(稀疏/密集/混合检索)和生成模块(LLM合成答案)。作者将推出系列文章深入解析RAG全流程实现,包括文档解析、切分策略、Embedding技术等,相关资源已开源至Github项目LLMHub。该技术正推动AI助手、专业问答等应用突破静态知识限制,实现更精准的信
2025-06-03 11:24:21
737
原创 一文搞懂RAG 的文档解析
本文介绍了RAG系统的文档解析技术,重点探讨了PDF解析的三大方法:基于规则的方法(如PyPDF)简单但段落完整性差;深度学习方法(如PP-StructureV2)能识别复杂布局但表格识别仍不精准;多模态大模型(如Qwen2.5-VL)通过端到端智能理解实现版面精准还原。这三种方法各有优缺点,需要根据实际需求选择适合的技术方案。文章还提供了相关技术指南和开源项目链接,为构建高质量RAG系统提供参考。
2025-06-03 11:23:01
724
原创 RAG 的文档解析:PDF 篇
本文探讨了PDF解析在RAG技术中的关键作用及其挑战。PDF因其非结构化特性,在文本提取、表格识别、跨页关联等方面存在困难。现有解析方法分为三类:基于规则的PyPDF等方法适合简单文档但精度有限;深度学习方法如PP-StructureV2通过版面分析提升复杂文档处理能力;新兴的多模态大模型(如Qwen2.5-VL)可实现端到端智能解析,但成本较高。随着大模型发展,PDF解析正从传统规则向AI驱动转变,为知识库构建提供更高效方案。
2025-06-01 21:51:08
1247
原创 什么是RAG?一文搞懂检索增强生成技术
RAG(检索增强生成)是一种结合检索与生成技术的大语言模型优化方法。它通过先检索外部知识库,再结合检索结果进行生成,解决大模型面临的数据时效性、专业性和准确性不足的问题。RAG的核心流程包括Query输入、Retriever检索和Generator生成三个步骤,有效降低模型幻觉。
2025-06-01 21:49:27
595
原创 梯度消失和梯度爆炸的原因及解决办法
梯度消失和梯度爆炸是由于深层神经网络中反向传播时梯度连乘效应导致的。梯度消失源于激活函数饱和(如sigmoid)或权重过小,使梯度趋近0;梯度爆炸则由于权重过大导致梯度指数级增长。解决方法包括:使用ReLU等激活函数、合理初始化权重(He/Xavier)、批归一化(BatchNorm)、梯度裁剪(Gradient Clipping)、残差连接(ResNet)及自适应优化器(Adam)。这些技术能有效稳定训练过程,提升模型性能。
2025-05-27 21:33:28
613
原创 大模型背后的协议与接口设计(一)- MCP
本文介绍了大模型背后的协议与接口设计系列专题的第一部分——模型上下文协议(MCP)。MCP是由Anthropic提出的开放协议,用于标准化AI模型与各类数据源的交互方式。文章从三个方面解析MCP:首先阐明MCP如同USB协议般连接AI模型与数据源;其次分析其客户端-服务器架构,包括Host、Client、Server等核心组件;最后描绘其类似HTTP的工作流程,其中AI工具通过MCP透明地访问本地或远程数据。MCP的出现使AI从被动应答者转变为能主动调用数据的智能执行者,大幅提升了工作效率。
2025-05-27 11:38:34
1036
原创 解决AttributeError: module ‘backend_interagg‘ has no attribute ‘FigureCanvas‘
这个问题是matplotlib版本太高导致的,只需要将matlptlib版本降低到3.5.0即可。
2024-11-08 16:05:58
395
原创 将一个(768,1)的张量转换为(1024,)
我想要将一个(768,1)的张量转换为(1024,)试了下面几个方法都没有得到目标结果。最后通过零填充实现的。
2024-04-26 09:51:18
221
原创 springboot no mapping for.....解决办法
这个问题是由于没有加入对应的GET,POST注解,导致映射失败,加入对应注解就ok了。
2024-04-21 19:40:24
2693
原创 Consider defining a bean of type ‘com.sky.service.DishService‘ in your configuration.怎么解决
这个问题通常是因为Spring Boot无法找到你指定的bean。在你的代码中,你已经定义了一个名为。的类,但是Spring可能在寻找一个名为。这样,Spring Boot就能找到。包下创建一个新的Java接口文件。
2024-04-21 11:03:11
1012
原创 tmux命令
tmux是一种后台窗口工具,我们平时远程连接服务器的时候如果自己的电脑关闭,那么连接也会断开,正在运行的程序也就会终止,tmux就可以让我们的程序在后台运行,即使我们的本地机器关机也不会影响服务器中正在运行的程序。下面给出一些tmux的常用命令。
2024-04-17 14:27:26
973
原创 RuntimeError: Expected to have finished reduction in the prior iteration before starting a new one.
在DistributedDataParallel中加入find_unused_parameters=True,如model = torch.nn.parallel.DistributedDataParallel(model, device_ids=[args.local_rank], output_device=args.local_rank, find_unused_parameters=True)这是因为部分参数没有参与计算loss。
2024-04-17 12:13:40
896
原创 ERROR: Could not build wheels for matplotlib, which is required to install pyproject.toml-based
将pip install 换成conda install即可。
2024-04-11 16:34:01
1575
1
原创 报错 ERROR: Unknown host ‘android-mirror.bugly.qq.com‘. You may need to adjust the proxy settings
报错 ERROR: Unknown host 'android-mirror.bugly.qq.com'. You may need to adjust the proxy settings
2024-04-11 10:41:04
616
原创 AttributeError: module ‘backend_interagg‘ has no attribute ‘FigureCanvas‘原因及解决办法
AttributeError: module 'backend_interagg' has no attribute 'FigureCanvas'原因及解决办法
2023-12-20 20:41:32
1250
1
原创 什么是预训练
预训练是出于特殊数据集和低成本数据集数量差距悬殊而提出的一种模型训练方法,即先通过大量的数据集训练得到一组权重可以较好的识别这些数据的共性,从而进行分类、检测等操作,当我们需要处理自己特殊需求的任务时,我们就可以借助之前训练好的模型来针对我们的数据进行参数的调整,从而大大减少了数据集的需求和工作量。
2023-12-19 21:58:36
592
原创 TypeError: expected str, bytes or os.PathLike object, not list原因及解决办法
这个错误通常发生在尝试使用 os 或 zipfile 等库的函数时,传递了不正确的参数类型。因为传递了一个列表对象,但库函数期望接收字符串、字节或类似路径的对象作为参数。os.path.relpath(file_path, folder_path)其中的file_path应该为字符串,但是我搞成了列表,故报错。
2023-12-18 21:55:07
3699
原创 “SELECT * FROM image where %s = ‘1‘ “, (selectedColumn,)这个SQL语句哪里错了
在 SQL 查询语句中,如果要动态地指定列名,需要将列名直接添加到 SQL 查询语句中,而不是作为参数传递。这是因为 SQL 参数化查询中的参数通常用于传递数值或字符串等常量值,而不是用于指定列名或表名。这将把 selectedColumn 变量的值直接嵌入到 SQL 查询语句中,但请确保 selectedColumn 的值是一个有效的列名,以避免 SQL 注入攻击。
2023-12-17 15:09:27
158
原创 (1064, “You have an error in your SQL syntax; check the manual that corresponds to your MySQL server
(1064, "You have an error in your SQL syntax; check the manual that corresponds to your MySQL server version for the right syntax to use near '== '1'' at line 1")原因及解决办法
2023-12-16 13:21:34
13857
原创 ValueError: invalid literal for int() with base 10: ‘2464,2465,2466,2467,2468‘原因及解决办法
ValueError: invalid literal for int() with base 10: '2464,2465,2466,2467,2468'原因及解决办法
2023-12-16 13:19:37
622
原创 TypeError: %d format: a number is required, not str原因及解决办法
TypeError: %d format: a number is required, not str原因及解决办法
2023-12-14 21:19:49
1635
MedDL-ColonPolyp-CVCColonDB结肠视频数据集
2025-07-05
MedDL-PolypSeg-ETISLarib-Dataset-结肠分割数据集
2025-07-05
Medical Segmentation - CVC612 - 结肠数据集
2025-07-05
本文档系统梳理了深度学习面试中常见的核心知识点,涵盖梯度消失与爆炸、BatchNorm/LayerNorm 区别、Dropout 原理、残差结构等问题的原理分析与结构化答题策略
2025-05-28
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人