星河AI-优快云博客

原创 AI用诗歌回答了：“我很羡慕你什么都懂，你的诞生让我感觉自己一无是处”

人类：我很羡慕你什么都懂，你的诞生让我感觉自己一无是处Deepseek: 你的羡慕像一扇窗，让我望见了人类最动人的光芒...

2025-02-23 22:38:32 864

原创了解 GRPO 算法：一种强化学习中的高效优化方法

本文将详细解读 GRPO 算法的核心思想，并探讨它与 PPO（Proximal Policy Optimization）算法的关系，帮助读者理解该算法在强化学习中的应用和优势。

2025-01-23 12:20:40 4637

原创多只股票数据处理

在当今的金融市场中，投资者和交易者越来越多地转向数据分析和技术工具来辅助决策。机器学习（ML）作为其中一种强大的技术手段，可以帮助我们预测市场趋势、优化投资组合以及识别潜在的投资机会。然而，要让机器学习算法发挥其最大潜力，必须准备好适合的数据集。本博客将探讨如何整理多个股票的特征数据，使之符合机器学习算法对训练数据的要求，并提供一个简单的代码示例。

2025-01-17 23:07:53 501

正式与专业使用专业术语：在适当的情况下使用领域内的专业术语，但要确保这些术语对于目标受众是可理解的。强调安全性和谨慎态度：当涉及到健康、安全或法律相关的问题时，特别提醒用户注意潜在的风险，并给出合理的预防建议。结论明确给出具体建议：基于提供的所有信息，总结出明确的结论或行动指南，帮助用户做出明智的选择。强调安全性和谨慎态度：当涉及到健康、安全或法律相关的问题时，特别提醒用户注意潜在的风险，并给出合理的预防建议。给出具体建议：基于提供的所有信息，总结出明确的结论或行动指南，帮助用户做出明智的选择。

2025-01-10 16:19:02 770

原创强化学习PPO算法

大模型后训练需要用到人类反馈强化学习RLHF，该方法使用PPO算法结合奖励函数实现对LLM的微调，后来出现了DPO算法，即"直接偏好优化"算法，可以直接使用偏好数据对SFT之后的LLM模型进行训练，实现与PPO+Reward同样的效果，这里的Reward主要指的是结果监督奖励函数，即对LLM输出的整个句子给与一个奖励值，以此引导PPO对LLM的训练优化方向。

2025-01-02 16:52:17 792

原创国产arm机器上scikit-learn报错: libgomp 的解决办法

arm机器运行langchain-chatchat报错解决from ._openmp_helpers import _openmp_parallelism_enabledImportError: /usr/local/lib/python3.10/site-packages/sklearn/utils/../../scikit_learn.libs/libgomp-d22c30c5.so.1.0.0: cannot allocate memory in static TLS block

2024-12-31 14:17:51 819

原创离线准备与在线狂欢：一个浮点数的量化之旅（part B）

想象一下，我们有一群快乐的小数字——浮点数们，它们生活在一个充满小数点的世界里，做着各种复杂的乘法和加法。但是，当我们要把它们送到资源有限的小设备上（比如手机或嵌入式系统），这些小设备可能没有足够的能量去处理这么多的小数点。于是，我们就需要把这些浮点数朋友们转换成整数小伙伴，这样它们就能在新的环境中快乐地玩耍了！

2024-12-09 18:03:36 743 1

原创深度学习模型量化：从 PTQ 到 QAT 的深入解析---part A

AI模型进行边缘计算一般可以进行量化以提高计算效率，PTQ是在模型训练完成后，对模型参数和激活值进行量化的技术。由于无需修改训练过程，其实现简单且开销低。然而，PTQ会在量化过程中引入近似误差，可能导致模型精度下降。QAT通过在训练过程中模拟量化操作，让模型逐步适应量化误差，从而在量化后仍能保持较高精度。其训练过程与标准训练类似，但在每次前向传播中引入了量化和反量化操作。

2024-12-09 17:07:48 1800

原创蒙特卡洛树搜索(MCTS)的原理和实现

蒙特卡洛树搜索（Monte Carlo Tree Search, MCTS）是一种用于决策过程的算法，特别适用于那些具有巨大状态空间的游戏和人工智能领域。它通过随机模拟来评估每个可能行动的价值，并逐步构建一个搜索树，以找到最优策略。本文将详细介绍MCTS的核心步骤及其在Python中的实现。MCTS提供了一种有效的手段来处理复杂决策问题，尤其是在状态空间巨大的情况下。通过不断地模拟和学习，MCTS能够为AI系统提供强大的决策支持。

2024-12-03 01:28:55 536

原创解码金融数据分析：A股股票筛选与贝塔值计算

def 筛选(间隔天数):if 间隔天数 % 5 == 0:a = []A股股票 = get_Ashares(date=None)st_status = get_stock_status(A股股票, 'ST')halt_status = get_stock_status(A股股票, 'HALT')delisting_status = get_stock_status(A股股票, 'DELISTING')for stock in A股股票.copy():A股股票.remove(stock)

2024-11-02 23:10:28 1525

原创 Docker命令行速成

Docker是一个开源的应用容器引擎，让开发者能够打包他们的应用以及其依赖包到一个可移植的容器中，然后发布到任何流行的Linux机器上。掌握Docker的基本命令对于高效地管理容器化应用至关重要。本文将带你深入了解Docker的一些核心命令及其参数，并通过实际例子演示它们的使用方法。

2024-10-30 14:39:40 405

原创国产昇腾AI服务器上的大模型算力需求解析

本文探讨了国产昇腾AI服务器在支撑大模型训练与推理时的算力需求。随着AI模型规模膨胀，昇腾服务器凭借其高性能硬件成为关键支撑。文中分析了昇腾AI服务器在显存容量与运算速度上的优势，并讨论了如何利用LoRA等技术减轻训练负担。尽管如此，大模型训练仍面临显存占用高的挑战。因此，本文提出采用混合精度训练和分布式训练等策略优化性能，以提升昇腾服务器的算力使用效率，促进国产AI基础设施建设与发展。

2024-10-30 11:45:09 1172

原创 Langchain-Chatchat开源项目实践分享-自定义文档分片

本文分享了作者在调试Langchain-Chatchat开源项目中的实践经验。首先介绍了项目的启动配置过程，包括运行环境、版本信息以及所用模型等细节。随后，文章重点介绍了Langchain-Chatchat提供的API接口及其应用，尤其是文档上传与向量化接口的使用方法。鉴于项目需求，作者强调了自定义文档切分的重要性，并给出了具体的Curl命令示例。最后，总结了Langchain-Chatchat作为一个强大框架的价值所在，为读者提供了构建和维护知识库问答系统的启示。

2024-10-24 16:47:45 1081 2

原创常用的正则表达式的模式和用途

正则表达式（Regular Expressions，简称regex或regexp）是一种强大的文本处理工具，用于匹配、查找和替换字符串中的模式。下面列举了一些常用的正则表达式模式及其用途

2024-10-23 15:16:17 337

原创通过例子学习分组注意力机制-GQA

最新的大语言模型如Qwen2等都采用了GQA机制，让我们来学习下GQA是如何实现的。

2024-10-17 11:50:41 369

原创 MHA多头注意力机制原理详解-“头”的本质

多头注意力机制允许模型在不同表示子空间中并行地计算注意力，从而捕捉输入的不同方面。这使得模型能够在处理序列数据时，同时关注多个不同的信息粒度和上下文。多头注意力机制通过并行计算多个注意力头，在不同的表示子空间中捕捉输入数据的不同特征。这种机制增强了模型的能力，使得它能够在处理序列数据时，同时关注多个不同的信息粒度和上下文。

2024-10-17 11:03:03 713

原创大文件切分与合并方法-split/cat

进行超大docker镜像文件离线刻盘传输时，需要切分和合并

2024-10-16 17:39:29 433

原创 nano编辑器的使用方法

nano编辑器的使用方法，包括启动、基本操作等。

2024-10-16 11:08:03 700

原创 Ubuntu系统的docker安装和GPU支持，国内可下载的AI镜像，AI助手

使用docker AI镜像可以避免繁琐的AI环境安装配置过程，下面是具体操作流程，还有国内可以的镜像资源以及免费答疑机器人。

2024-09-20 18:54:59 1137 1

原创 torch.stack解释，容易理解

d=torch.stack(list,dim=n), list= [a,b,c]意思是对list中的元素进行叠加，组成一个新的tensor d, 叠加方式是在原始元素的shape中增加一个维度dim=n, 然后在新增的维度dim上进行叠加。比如a.shape = (*,*), dim=2，则最终d.shape=(*,*,dim), 若dim=0,则d.shape=(dim,*,*)....

2019-12-30 01:27:38 1976 2

weixin_42072959的博客