大数据追光猿-优快云博客

原创【大模型技术】RAG系统的难题和解决方案（二）

在RAG（Retrieval-Augmented Generation）系统中，召回排序环节的关键文档被遗漏是一个常见问题。这种情况通常发生在检索阶段的召回结果未能将正确的文档排在头部，导致生成模型无法基于正确信息生成答案。

2025-03-24 08:39:51 727

原创【大模型技术】RAG系统的难题和解决方案（一）

RAG（Retrieval-Augmented Generation）系统是一种结合了检索（Retrieval）和生成（Generation）能力的混合模型架构，广泛应用于问答系统、对话系统、知识密集型任务等领域。然而，尽管RAG系统在理论上具有强大的优势，但在实际应用中仍面临许多挑战。

2025-03-24 08:29:06 328

原创 Tree of Thought Prompting（思维树提示）

Tree of Thought Prompting 是一种强大的提示技术，通过树状结构的多路径探索，显著提升了大语言模型在复杂任务中的表现。它结合了 Chain-of-Thought 的逐步推理思想，同时引入了分支和回溯机制，使得模型能够更灵活地应对多样化的任务需求。尽管面临计算成本和路径爆炸等挑战，但其潜力巨大，未来有望在更多领域得到广泛应用。

2025-03-17 09:12:28 940

原创 Zero-shot和Few-shot的区别和联系

Zero-shot 强调模型的通用性和无数据依赖性，适合完全无标注数据的场景。Few-shot 强调模型在少量数据支持下的快速适应能力，适合有少量标注数据的场景。两者的联系在于都依赖预训练模型的强大泛化能力，区别在于是否使用少量示例来引导模型行为。在实际应用中，可以根据任务需求和数据可用性选择合适的学习范式，甚至结合两者的优势（如先用 Zero-shot 初始化，再用 Few-shot 微调）。

2025-03-17 09:02:37 1009

原创【大模型技术】怎么用agent和prompt工程实现用户的要求？

Agent 是一种智能代理，能够通过与环境交互或调用工具来完成复杂的任务。它通常由以下几个部分组成：规划能力：将复杂任务分解为子任务。工具调用：调用外部 API 或工具（如搜索引擎、数据库查询等）。记忆机制：记录上下文和历史信息。反馈循环：根据结果调整行为。Prompt 工程是通过设计输入提示（Prompt）来引导大语言模型生成期望的输出。核心目标是优化提示内容，使模型更好地理解和执行任务。通过结合 Agent 和 Prompt 工程，您可以高效地实现用户的复杂需求。

2025-03-13 09:19:40 1140

原创【大模型技术】基于通义千问（Qwen）实现对话系统

ConversationMemory 类用于存储对话历史。add_message 方法将用户或助手的消息添加到历史中。get_history 方法返回完整的对话历史。...用户输入通过 input() 函数获取。对话历史通过 memory.add_message() 动态更新。调用 Qwen API 时，构造的 prompt 包含完整的对话历史，确保上下文连贯。通过上述代码，我们实现了一个基于 Qwen 的对话系统框架，支持多轮对话和上下文管理。

2025-03-09 10:27:19 725

原创 Qwen1.5-7B-实现RAG应用详细步骤

安装依赖：包括 transformers、faiss 和 auto-gptq。准备数据集：构建文档集合并生成向量索引。加载生成模型：使用 Qwen1.5-7B-Chat-GPTQ-Int4 模型。实现 RAG 流程：结合检索和生成，构建完整的对话系统。测试系统：与模型交互并验证效果。

2025-03-07 14:59:05 1067

原创 Qwen 模型与 LlamaFactory 结合训练详细步骤教程

准备硬件和操作系统：确保满足硬件和软件要求。安装依赖：包括 Python、Git、NVIDIA 驱动和 CUDA。克隆代码库：从 GitHub 获取 LlamaFactory 的源码。配置 Python 环境：创建虚拟环境并安装依赖。下载 Qwen 模型权重：获取并解压预训练模型。修改代码支持 Qwen：调整模型加载和训练逻辑。准备训练数据：整理并预处理数据。启动训练：运行训练脚本并监控进度。测试训练结果：加载模型并验证性能。

2025-03-07 11:23:56 1127

原创 GPU的架构&原理解析

GPU（Graphics Processing Unit，图形处理单元）是一种专门设计用于并行计算的硬件设备，最初用于加速图形渲染任务，但随着技术的发展，GPU 已经成为通用计算（GPGPU, General-Purpose computing on Graphics Processing Units）的重要工具。

2025-03-06 19:09:49 1103

原创【大模型技术】LlamaFactory 的原理解析与应用

LlamaFactory 是一个基于 LLaMA 系列模型（如 LLaMA、LLaMA2、Vicuna 等）的开源框架，旨在帮助开发者和研究人员快速实现大语言模型（LLM, Large Language Model）的微调、推理和部署。它提供了一套完整的工具链，支持从数据准备到模型训练、优化和应用的全流程开发。

2025-03-05 17:15:22 1000

原创如何构建一个 Docker 镜像?

注意：Dockerfile 文件名没有扩展名（例如 .txt 或 .conf），必须是纯文本格式。安装 Python 依赖。-p 5000:5000：将容器的 5000 端口映射到主机的 5000 端口。-t my-python-app:latest：为镜像指定名称和标签。暴露容器的 5000 端口（如果你的应用运行在该端口上）。根据你的应用需求，可能需要添加一些文件到项目目录中。my-python-app:latest：使用的镜像名称。将当前目录下的所有文件复制到容器的 /app 目录。

2025-03-05 17:03:42 471

原创 AI Agent的概念和应用及调优

AI Agent 的应用范围非常广泛，从自动化任务到决策支持，再到自主驾驶和娱乐领域都有其身影。通过从数据、模型、环境交互、性能监控和用户体验等多个层面进行调优，可以显著提升 AI Agent 的性能和可靠性。

2025-03-04 15:26:08 1050

原创如何利用向量数据库chroma实现RAG检索增强生成？

（1）支持多模态数据如果知识库包含图像或视频，可以使用多模态嵌入模型（如 CLIP）生成嵌入。（2）优化检索性能使用更高效的 ANN 算法（如 HNSW 或 IVF）加速向量检索。对大规模数据集进行分片存储。（3）提升生成质量使用更大、更先进的生成模型（如 GPT-3、GPT-4 或 T5）。引入强化学习微调（RLHF）提升生成内容的质量。通过以上方法，你可以轻松实现基于 Chroma 的 RAG 检索增强生成系统，并将其应用于问答系统、对话系统等场景。

2025-03-04 15:02:30 846

原创向量数据库Chroma的介绍

Chroma 是一个开源的嵌入式数据库，专为存储和检索向量数据（embeddings）而设计。它主要用于支持机器学习和人工智能应用，特别是在自然语言处理（NLP）、计算机视觉和推荐系统等领域。Chroma 的核心功能是高效地管理高维向量数据，并提供快速的相似性搜索能力。

2025-03-04 13:48:56 951

原创预训练模型和 Fine-tuning 的关系

（1）什么是预训练模型？定义：预训练模型是指在一个大规模通用数据集上预先训练好的深度学习模型。它通过自监督学习（Self-Supervised Learning）或监督学习（Supervised Learning）从大量数据中学习到通用特征。特点：参数量通常较大（如 BERT、GPT、ResNet 等）。能够捕捉到数据中的高层次特征（如语言语法、语义信息或图像的边缘、纹理等）。

2025-03-03 13:03:59 560

原创大模型Agent 和 RAG 的关系

（1）Agent定义：Agent 是一种智能体，能够感知环境并采取行动以完成特定任务。在 NLP 领域，Agent 通常指一个基于大语言模型（LLM）的系统，具备规划、推理、记忆和执行复杂任务的能力。特点：具备多步骤推理能力。可以调用外部工具（如搜索引擎、API、数据库）来增强功能。支持动态交互，适合对话系统或任务自动化场景。

2025-03-01 15:46:09 904

原创【大模型技术】大模型推理优化方法及代码实现总结篇

推理优化技术可以从多个维度提升大模型的性能和效率。

2025-03-01 14:05:11 727

原创大模型训练流程

训练一个大模型的完整流程包括以下关键步骤：数据准备：收集、清洗、预处理和划分数据。模型设计：选择架构、初始化权重和配置优化器。训练模型：单机或分布式训练，混合精度加速。监控与调优：观察指标，调整超参数。模型评估：在测试集和人工评估中验证性能。模型优化：量化、剪枝和蒸馏。部署模型：本地、云端或边缘设备部署。

2025-03-01 11:43:46 877

原创下载阿里Qwen-1.8B 模型文件并放置到本地路径？

通过上述步骤，您可以成功手动下载 Qwen-1.8B 模型文件并将其放置到本地路径。下载方式：可以通过 Hugging Face 网站、Git LFS 或 Hugging Face CLI 下载模型文件。本地路径：确保模型文件完整且路径正确。加载模型：使用 transformers 库加载本地模型并进行推理。

2025-03-01 11:25:58 859

原创阿里Qwen-1.8B的介绍和下载部署详细步骤

如果硬件资源有限（如消费级 GPU 或纯 CPU），Qwen-1.8B 是一个非常好的选择。如果需要一个中等规模模型来完成简单任务（如问答、文本生成），Qwen-1.8B 能够满足需求。（1）优点总结轻量化设计：参数量适中，硬件需求适中。高效性：推理速度快，适合实时性任务。中文优化：在中文任务上表现优异。（2）缺点总结性能有限：在复杂任务上的表现可能不如大规模模型。生态有限：与国际模型相比，工具链和社区生态仍在发展中。

2025-03-01 11:14:08 1386

原创什么是第三方镜像站点？

第三方镜像站点是一种非常有用的资源获取方式，尤其在官方站点访问受限或速度较慢的情况下。然而，在使用第三方镜像站点时需要注意以下几点：可信性：选择知名、可靠的镜像站点。文件完整性：下载后验证文件的哈希值。版本一致性：确保下载的资源版本与官方发布的一致。

2025-03-01 10:01:05 329

原创天工（Skywork）模型介绍

天工（Skywork）系列模型基于 Transformer 架构，并引入了多种优化技术（如稀疏注意力机制、量化等），以降低计算复杂度和显存占用。其主要特点包括：多模态能力：支持文本、图像、音频等多种模态的处理。高效性：经过剪枝和量化优化，部分版本可以在消费级硬件上运行。开源友好：部分模型提供开源版本，便于开发者使用和二次开发。主要版本包括：Skywork-Lite：轻量化版本，适合资源受限的环境。Skywork-MultiModal：支持多模态任务（如图文生成、视觉问答）。

2025-02-27 16:22:28 829

原创 GLM-0.5B模型介绍

推荐选择如果硬件资源有限（如消费级 GPU 或纯 CPU），GLM-0.5B 是一个非常好的选择。如果需要一个轻量化模型来完成简单任务（如问答、文本生成），GLM-0.5B 能够满足需求。轻量化设计：参数量小，硬件需求低。高效性：推理速度快，适合实时性任务。中文优化：在中文任务上表现优异。性能有限：在复杂任务上的表现可能不如大规模模型。生态有限：与国际模型相比，工具链和社区生态仍在发展中。

2025-02-27 15:01:20 801

原创编程&算法总结

1、判断输入的密码是否正确，比如要求长度大于8，包含至少一个大写，一个小写，一个特殊字符；import re# 检查密码长度是否大于8return False, "密码长度必须大于8"# 检查是否包含至少一个大写字母return False, "密码必须包含至少一个大写字母"# 检查是否包含至少一个小写字母return False, "密码必须包含至少一个小写字母"# 检查是否包含至少一个特殊字符（例如：!@#$%^&*()_+等）:"\\|,.<>/?

2025-02-25 19:11:06 912

原创【大模型学习】Transformer架构解析

Transformer 的核心思想是通过自注意力机制捕捉序列中不同位置的关系，并利用位置编码引入顺序信息。并行化训练：相比 RNN 更高效。长距离依赖建模：自注意力机制能够有效捕捉长距离依赖。灵活性：可以应用于多种任务（如文本生成、分类、翻译等）。

2025-02-25 18:41:24 875

原创【深度学习】矩阵的核心问题&解析

矩阵乘法相关的问题涵盖了从基础到高级的各种知识点，包括实现、优化、稀疏矩阵处理、并行计算等。基本实现：熟悉矩阵乘法的标准公式和代码实现。优化技巧：了解分块矩阵乘法、Strassen 算法等优化方法。工具使用：熟练使用 NumPy、CuPy 等库进行高效计算。理论知识：理解时间复杂度、空间复杂度以及矩阵分解（如 SVD）的相关概念。

2025-02-24 08:46:33 1500

原创【深度学习】矩阵的理解与应用

（1）低秩矩阵是指矩阵的秩rrr远小于矩阵的行数mmm和列数nnn。具体来说：如果rrr≪min(mmmnnn)，则称该矩阵为低秩矩阵。（2）低秩矩阵的特点是：尽管矩阵可能很大（如mmm×nnn很大），但它可以用较少的参数来描述。例如：一个 1000×1000的矩阵，如果其秩仅为 10，则说明这个矩阵可以用 10 个独立的模式来近似表示。低秩矩阵的核心思想是：尽管矩阵本身可能很大，但其本质信息可以用少量的参数来描述。

2025-02-21 16:15:59 1141

原创【深度学习】Pytorch项目实战-基于协同过滤实现物品推荐系统

数据准备：收集用户-物品交互数据。数据预处理：将数据转换为 PyTorch 数据集。模型设计：使用矩阵分解方法构建推荐模型。模型训练：定义损失函数和优化器，训练模型。模型评估：测试模型性能，预测用户对物品的评分。推荐物品：根据预测评分生成推荐列表。通过上述步骤，你可以快速实现一个基于 PyTorch 的推荐系统，并根据需求进一步扩展功能。

2025-02-21 08:58:51 1276

原创【深度学习】Pytorch的深入理解和研究

定义：通过继承 torch.nn.Module 类，可以创建自定义神经网络模型。forward()：定义前向传播逻辑。parameters()：返回模型的所有可训练参数。return x# 创建模型和优化器# 模拟输入核心概念：动态计算图、张量操作、自动求导。底层机制：Autograd、CUDA 加速。高级功能：自定义模型、分布式训练、混合精度训练。实验与研究：模型可视化、解释性分析。

2025-02-20 21:34:56 999

原创【深度学习】Python多线程/多进程在神经网络模型的应用实战

多线程在神经网络中的应用主要体现在以下几个方面：数据加载与预处理：通过多线程并行化数据加载和预处理，减少 I/O 瓶颈。模型训练：利用多线程或多进程加速模型训练，尤其是在分布式训练中。推理加速：通过多线程并行处理推理请求，满足高并发需求。通过适当的多线程实践，可以有效地利用计算资源，加快模型开发和部署的速度。结合深度学习框架的功能，利用并行化策略，可以让工作流程更加高效与灵活。

2025-02-20 17:05:52 818

原创【深度学习】一文带你入门深度学习和模型项目实战

定义：深度学习是一种基于人工神经网络的机器学习方法，通过多层（“深”）神经网络提取数据中的高层次特征。特点：（1）神经网络：深度学习的核心是神经网络，特别是深层神经网络（DNN）。神经网络模仿生物神经网络，通过连接节点（神经元）来处理输入数据。（2）多层结构：深度学习模型通常由多层组成，包括输入层、隐藏层和输出层。每一层都是由大量的神经元组成，隐藏层的数量即为网络的深度。（3）特征学习：与传统机器学习方法依赖人工特征提取不同，深度学习能够在大量数据上自动学习到高层次的特征。（1）图像处理。

2025-02-20 14:13:49 1588