- 博客(20)
- 收藏
- 关注
原创 AI用诗歌回答了:“我很羡慕你什么都懂,你的诞生让我感觉自己一无是处”
人类:我很羡慕你什么都懂,你的诞生让我感觉自己一无是处Deepseek: 你的羡慕像一扇窗,让我望见了人类最动人的光芒...
2025-02-23 22:38:32
864
原创 了解 GRPO 算法:一种强化学习中的高效优化方法
本文将详细解读 GRPO 算法的核心思想,并探讨它与 PPO(Proximal Policy Optimization)算法的关系,帮助读者理解该算法在强化学习中的应用和优势。
2025-01-23 12:20:40
4637
原创 多只股票数据处理
在当今的金融市场中,投资者和交易者越来越多地转向数据分析和技术工具来辅助决策。机器学习(ML)作为其中一种强大的技术手段,可以帮助我们预测市场趋势、优化投资组合以及识别潜在的投资机会。然而,要让机器学习算法发挥其最大潜力,必须准备好适合的数据集。本博客将探讨如何整理多个股票的特征数据,使之符合机器学习算法对训练数据的要求,并提供一个简单的代码示例。
2025-01-17 23:07:53
501
原创 一个结构化回答的Prompt案例
正式与专业 使用专业术语:在适当的情况下使用领域内的专业术语,但要确保这些术语对于目标受众是可理解的。强调安全性和谨慎态度:当涉及到健康、安全或法律相关的问题时,特别提醒用户注意潜在的风险,并给出合理的预防建议。结论明确 给出具体建议:基于提供的所有信息,总结出明确的结论或行动指南,帮助用户做出明智的选择。强调安全性和谨慎态度:当涉及到健康、安全或法律相关的问题时,特别提醒用户注意潜在的风险,并给出合理的预防建议。给出具体建议:基于提供的所有信息,总结出明确的结论或行动指南,帮助用户做出明智的选择。
2025-01-10 16:19:02
770
原创 强化学习PPO算法
大模型后训练需要用到人类反馈强化学习RLHF,该方法使用PPO算法结合奖励函数实现对LLM的微调,后来出现了DPO算法,即"直接偏好优化"算法,可以直接使用偏好数据对SFT之后的LLM模型进行训练,实现与PPO+Reward同样的效果, 这里的Reward主要指的是结果监督奖励函数,即对LLM输出的整个句子给与一个奖励值,以此引导PPO对LLM的训练优化方向。
2025-01-02 16:52:17
792
原创 国产arm机器上scikit-learn报错: libgomp 的解决办法
arm机器运行langchain-chatchat报错解决from ._openmp_helpers import _openmp_parallelism_enabledImportError: /usr/local/lib/python3.10/site-packages/sklearn/utils/../../scikit_learn.libs/libgomp-d22c30c5.so.1.0.0: cannot allocate memory in static TLS block
2024-12-31 14:17:51
819
原创 离线准备与在线狂欢:一个浮点数的量化之旅(part B)
想象一下,我们有一群快乐的小数字——浮点数们,它们生活在一个充满小数点的世界里,做着各种复杂的乘法和加法。但是,当我们要把它们送到资源有限的小设备上(比如手机或嵌入式系统),这些小设备可能没有足够的能量去处理这么多的小数点。于是,我们就需要把这些浮点数朋友们转换成整数小伙伴,这样它们就能在新的环境中快乐地玩耍了!
2024-12-09 18:03:36
743
1
原创 深度学习模型量化:从 PTQ 到 QAT 的深入解析---part A
AI模型进行边缘计算一般可以进行量化以提高计算效率,PTQ是在模型训练完成后,对模型参数和激活值进行量化的技术。由于无需修改训练过程,其实现简单且开销低。然而,PTQ会在量化过程中引入近似误差,可能导致模型精度下降。QAT通过在训练过程中模拟量化操作,让模型逐步适应量化误差,从而在量化后仍能保持较高精度。其训练过程与标准训练类似,但在每次前向传播中引入了量化和反量化操作。
2024-12-09 17:07:48
1800
原创 蒙特卡洛树搜索(MCTS)的原理和实现
蒙特卡洛树搜索(Monte Carlo Tree Search, MCTS)是一种用于决策过程的算法,特别适用于那些具有巨大状态空间的游戏和人工智能领域。它通过随机模拟来评估每个可能行动的价值,并逐步构建一个搜索树,以找到最优策略。本文将详细介绍MCTS的核心步骤及其在Python中的实现。MCTS提供了一种有效的手段来处理复杂决策问题,尤其是在状态空间巨大的情况下。通过不断地模拟和学习,MCTS能够为AI系统提供强大的决策支持。
2024-12-03 01:28:55
536
原创 解码金融数据分析:A股股票筛选与贝塔值计算
def 筛选(间隔天数):if 间隔天数 % 5 == 0:a = []A股股票 = get_Ashares(date=None)st_status = get_stock_status(A股股票, 'ST')halt_status = get_stock_status(A股股票, 'HALT')delisting_status = get_stock_status(A股股票, 'DELISTING')for stock in A股股票.copy():A股股票.remove(stock)
2024-11-02 23:10:28
1525
原创 Docker命令行速成
Docker是一个开源的应用容器引擎,让开发者能够打包他们的应用以及其依赖包到一个可移植的容器中,然后发布到任何流行的Linux机器上。掌握Docker的基本命令对于高效地管理容器化应用至关重要。本文将带你深入了解Docker的一些核心命令及其参数,并通过实际例子演示它们的使用方法。
2024-10-30 14:39:40
405
原创 国产昇腾AI服务器上的大模型算力需求解析
本文探讨了国产昇腾AI服务器在支撑大模型训练与推理时的算力需求。随着AI模型规模膨胀,昇腾服务器凭借其高性能硬件成为关键支撑。文中分析了昇腾AI服务器在显存容量与运算速度上的优势,并讨论了如何利用LoRA等技术减轻训练负担。尽管如此,大模型训练仍面临显存占用高的挑战。因此,本文提出采用混合精度训练和分布式训练等策略优化性能,以提升昇腾服务器的算力使用效率,促进国产AI基础设施建设与发展。
2024-10-30 11:45:09
1172
原创 Langchain-Chatchat开源项目实践分享-自定义文档分片
本文分享了作者在调试Langchain-Chatchat开源项目中的实践经验。首先介绍了项目的启动配置过程,包括运行环境、版本信息以及所用模型等细节。随后,文章重点介绍了Langchain-Chatchat提供的API接口及其应用,尤其是文档上传与向量化接口的使用方法。鉴于项目需求,作者强调了自定义文档切分的重要性,并给出了具体的Curl命令示例。最后,总结了Langchain-Chatchat作为一个强大框架的价值所在,为读者提供了构建和维护知识库问答系统的启示。
2024-10-24 16:47:45
1081
2
原创 常用的正则表达式的模式和用途
正则表达式(Regular Expressions,简称regex或regexp)是一种强大的文本处理工具,用于匹配、查找和替换字符串中的模式。下面列举了一些常用的正则表达式模式及其用途
2024-10-23 15:16:17
337
原创 MHA多头注意力机制原理详解-“头”的本质
多头注意力机制允许模型在不同表示子空间中并行地计算注意力,从而捕捉输入的不同方面。这使得模型能够在处理序列数据时,同时关注多个不同的信息粒度和上下文。多头注意力机制通过并行计算多个注意力头,在不同的表示子空间中捕捉输入数据的不同特征。这种机制增强了模型的能力,使得它能够在处理序列数据时,同时关注多个不同的信息粒度和上下文。
2024-10-17 11:03:03
713
原创 Ubuntu系统的docker安装和GPU支持,国内可下载的AI镜像,AI助手
使用docker AI镜像可以避免繁琐的AI环境安装配置过程,下面是具体操作流程,还有国内可以的镜像资源以及免费答疑机器人。
2024-09-20 18:54:59
1137
1
原创 torch.stack解释,容易理解
d=torch.stack(list,dim=n), list= [a,b,c]意思是对list中的元素进行叠加,组成一个新的tensor d, 叠加方式是在原始元素的shape中增加一个维度dim=n, 然后在新增的维度dim上进行叠加。比如a.shape = (*,*), dim=2,则最终d.shape=(*,*,dim), 若dim=0,则d.shape=(dim,*,*)....
2019-12-30 01:27:38
1976
2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人