- 博客(24)
- 收藏
- 关注
原创 运筹学之指派问题(原始匈牙利算法以及KM算法)
完全图是一个无向图,其中 每一对不同的顶点之间都恰好有一条边直接相连。即,若图有 n 个顶点,则任意两个顶点间均存在唯一的一条边。边数是nn−1/2。
2025-04-17 17:03:50
672
原创 【第2章:OpenAI Gym接口 和 Gymnasium库】【动手实践深度强化学习/Deep Reinforcement Learning Hands-On】【Third Edition】
你已经开始学习强化学习的实践方面!在本章中,我们实践了 Gymnasium库,它有大量的环境可供玩耍。我们也研究了其基本 API,并创建了一个随机行为的智能体。你还学习了如何以模块化方式扩展现有环境的功能,并熟悉了如何使用包装器呈现智能体的活动。这将在后续章节中大量使用。在下一章中,我们将使用 PyTorch 快速回顾深度学习,PyTorch 是最广泛使用的深度学习工具包之一。
2025-04-15 02:29:43
609
原创 【第1章:什么是强化学习】【动手实践深度强化学习/Deep Reinforcement Learning Hands-On】【Third Edition】
在本章中,通过学习RL为何如此特别,还有如何与(监督学习和非监督学习)这两个学习范式相互关联,此时,你已经在RL世界里开始了你的旅程。然后我们学习了RL的基本形式以及内部如何相互作用,接着又学习了MPs、MRPs和MDPs。这些知识将是我们学习本书其余部分内容的基础。下一章中,我们将会从形式理论移步至到RL的实践。我们也将会学习必要的安装与库包,然后你就可以制作你的第一个智能体。
2025-04-05 21:18:28
1222
原创 【序】【动手实践深度强化学习/Deep Reinforcement Learning Hands-On】【Third Edition】
这本书是关于强化学习(RL),RL是机器学习(ML)的一个子领域;RL专注于在通用的且具备挑战性问题上最优行为的学习,这种问题往往是在复杂环境中。这种学习过程仅仅由奖励值和从环境中获取的观察结果所驱动。这个模型是非常通用,并且能够应用于许多实际场景中,从玩游戏到优化复杂制造工艺上。那么本书主要关注深度强化学习(DRL),一种利用深度学习方法的强化学习。
2025-03-30 23:38:12
1010
原创 【wow-rag系列】 task05 Ollama+llamaIndex+流式部署页面
第二种直接部署到静态服务器上也可以,例如在该代码的所在位置打开cmd窗口输入命令:python -m http.server 8080 --bind 0.0.0.0。最后我想说RAG是一个很大的工程,每一个环节做精做强不容易,数据清洗,数据加载,数据分割,数据持久化,数据检索方式,数据怎么增强,都不容易,更不用提与大模型相关的环节.我只能说是我在文本加载环节,或者数据分割环节,还有数据检索环节、数据增强环节还有很大的改进空间,导致数据生成成这样。新建一个engine.py文件。新建一个main.py文件。
2025-03-27 13:59:03
190
原创 【wow-rag系列】 task04 金庸小说文档管理
是指通过检索来获得上下文知识,并将其输入大模型用于输入。因此数据经过加载与分割后,已经形成了大量的知识块(Node),那么下一步就是对Node构造索引,以便能够闪电式速度检索出他们。向量存储索引并非唯一的最佳索引形式,尽管向量在语义检索上有天然的优势,但是在一些场景中会表现欠佳。有机会的话我们也讲讲除了向量存储索引意外的一些常用索引形式及用法。向量存储索引是RAG应用中最常看到的一类索引。这类索引通常基于Embedding模型与向量存储而构造。用于在生成阶段快速检索出相关知识Node并形成增强的上下文。
2025-03-25 16:49:21
151
原创 【wow-rag系列】 task03 制作初步的问答引擎(关于金庸小说)
最近拖更了,两个原因,第一个加班干活,第二个才是最主要原因,遇到一点小小问题,就开始纠结其背后是什么玩意,what,why,how都做了一遍,太耗费时间了,收效甚微。也没有从工程角度把这个wow-rag项目去做完。
2025-03-25 15:17:38
240
原创 【wow-rag系列】 task02 准备好Embedding模型和LLM模型
根据上一个task画下的总流程图如下所示,会发现整个RAG环节里首先要准备两个模型,分别是和。
2025-03-14 08:02:32
438
原创 【比例定点】三线截击算法
三线是一等线、起飞线和拦截线的简称,一等线是在敌机到达一等线时,我方需要向指定机场拦截机飞行员下达一等命令,准备起飞作战。起飞线是在敌机到达起飞线时,下令作战飞机起飞。拦截线是根据敌我飞机的参数,系统计算出的拦截位置。
2025-03-12 18:23:40
304
原创 【微学习系列】 大模型原理简介
目前大模型都是流式输出,就是一个字一个词的蹦,它通过模仿在训练时摸索积累到的文本规律,在输出中不断预测着下一个字、下一个词,最后选中的都是概率最大解,其实就是概率接龙游戏,目的是输出符合人类语言规律逻辑的,符合人类认知的完整文本。大模型在面对新的问题时,会迁移预测能力,生成内容的时候,就像是在猜下一个字、下一个词出现的可能性。它会根据前面的内容(上文),就像你写作文时,根据前面的语境来想下一个词怎么写一样,去计算每个可能的字或词出现的概率,然后选出最合适的,就像在一堆选项里挑最符合语境的那个。
2025-03-02 17:31:20
1041
原创 【fun-Transformer系列】-Task04 Decoder
前文再续,书接上一回,上次讲到Encoder,我们先回顾下Encoder的图长什么样。
2025-02-21 21:59:33
190
原创 【fun-Transformer系列】-Task03 Encoder
这里我又不得不出现了,task里面的公式和参数描述相当乱,无法有个完整参考可以串联思考。以下我给出我对Transformer中多头注意力超参数的理解。
2025-02-17 23:02:02
804
原创 【fun-Transformer系列】-Task01引言
输入一个序列,输出另一个序列。哪一边的序列长度都是可变的。1.使用BOS和EOS能够减少对Padding的依赖(模型可以根据这些标记来识别序列的边界)。2.与通信原理有一定相似性,尤其是编码-传输-解码过程来看。
2025-02-13 00:32:28
424
原创 【自然语言处理-油管系列】-task01-01_NLP_basis(未完成)
IMDB电影评论集具有以下特点5万个电影评论,文本形式每个评论都会有positive 和 negative的标签这是一个二分类问题两万五用于训练,另外一半用于测试数据集。
2024-06-17 15:56:24
567
原创 【深度强化学习实战/Deep Reinforcement Learning in Action】-第9章-多智能体
第九章《深度强化学习实战》
2023-06-08 12:04:05
4567
5
原创 【矩阵类内容】机器学习的矩阵求导基础
大概讲述了矩阵求导方法中的定义法,掌握此定义法,就能进行一些后面要学到的经典机器学习中的损失函数梯度表达式的推导。
2023-05-26 06:21:33
1151
2
原创 《推荐系统实战宝典》第1章 推荐系统概述
今天有空总结一下在图书馆借阅的一本机工出版的《推荐系统实战宝典》,里面很多概念我很多都不会,以后有空回来再修改补全我的理解。
2023-05-20 16:42:56
157
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人