Echo木-优快云博客

原创强化学习原理与应用作业三-多智能体

多智能体强化学习VDN、QMIX、MATD3

2022-06-11 00:20:56 4592 4

原创 Matlab(多元)线性回归、非线性回归、多项式拟合、(自定义函数)曲线拟合-回归分析代码分享

Matlab(多元)线性回归、非线性回归、多项式拟合、(自定义函数)曲线拟合-代码示例

2021-08-25 00:38:40 6047

罗列用到的一些知识：1.指定控制台光标2.设置控制台文字颜色3.监听键盘的函数kbhit4.生成随机数5.暂停函数Sleep6.函数cin.get()思路：1.初始化边界墙，初始化蛇，生成第一个食物2.进入循环：通过键盘得到方向移动蛇(打印时只需要修改原蛇蛇尾、原蛇蛇头和新蛇蛇头)并判断蛇头和食物坐标是否相等，是则产生新食物，更新分数、速度、蛇长度。/* *Author: Jin *Time : 2020/11/10 */#include&lt

2020-11-10 17:23:03 1448

原创 DeepSeek-V3.2论文

计算效率的优化，并有卓越的推理和智能体性能。关键突破包括：1.DeepSeek Sparse Attention (DSA)，减少计算复杂性，在长文本场景下保护模型复杂性。2.可扩展的强化学习框架，通过实现鲁棒的RL协议，扩展后训练计算，使得V3.2的性能接近GPT-5。高性能版本V3.2-Special超越了GPT-5，达到了gemini-3-pro水平3.大规模智能体任务合成pipeline。为应对tool-use场景，提出synthesis pipeline以生成训练数据。

2025-12-14 18:22:06 303

原创旋转位置编码RoPE

（最基本的要求），同时最好满足位置编码经验上的性质：（绝对位置编码）计算简单（计算需要）、（相对位置编码）远程衰减（存在相对位置越大，计算的点击越小的趋势，对应经验上位置越远相关性越低）。定义融入绝对位置信息的函数f(x, pos)，需要计算点积f_q(q_m, m)^T f_k(k_n, n)RoPE的核心思想是，对q、k使用绝对位置编码融入位置信息，但计算点积时能表现出相对位置信息，即。计算之前，对q和k，需要融入位置信息，也可以说对x_m、x_n先融入位置信息在变换得到q、k。

2025-07-29 11:49:30 425

原创【RegretNet】Optimal Auctions through Deep Learning: Advances in Differentiable Economics

设计一个能最大化期望收入的激励相容拍卖是困难的任务。单物品拍卖在1981年被Myerson解决。但两个及以上的物品拍卖仍然是困难的。本文探索深度学习解决最优拍卖。

2025-05-29 15:37:48 592

原创 DeepSeek-R1学习

推出了第一代推理模型reasoning model：DeepSeek-R1-Zero and DeepSeek-R1。Zero版预训练之后没有SFT，而是直接进行RL训练，其表现出强大的推理能力，但是存在可读性较差，语言混杂的问题。为了处理这个问题，并进一步增强性能，推出DeepSeek-R1，其在RL之前使用了多阶段训练和冷启数据，实现与OpenAI-o1-1217可比的性能，并使用R1蒸馏了Qwen和LLama的小模型各种推理benchmark和知识benchmark上的结果。。

2025-03-17 17:49:34 749

原创 Python 定时调度任务

代码开源传统的推荐系统严重依赖ID特征，存在冷启和泛华问题。建模预先提取的内容特征能够减缓这些问题，但这仍然是次优的，源于训练任务和模型参数之间的差异。端到端训练提供了解决方法，但多数已有工作集中在检索模型，未使用多模态技术。本文提出工业级的多模态推荐框架：EM3：“End-to-end training of Multimodal Model and ranking Model” () ，充分使用多模态信息，能够获得任务特定的内容特征。

2024-11-02 18:17:02 648

原创编程中的闭包概念

闭包概念

2023-10-02 18:31:03 277

原创 Apollo自动驾驶课程学习

f value = g value + h value = 到下一候选点的成本 + 从下一候选点到目的地的估计成本。路线规划：粒度粗一点。Graph的边可以对任何东西建模，如行驶成本。：将道路分成一个一个小格子，然后在每个格子内随机选点，然后随机连线成多个候选轨迹。对象：静态（墙壁、树木等），动态交通参与者（行人、机动车、非机动车）：基于偏移、碰撞、限速等，对不同轨迹评估，选择最好的一条。最大限度降低车辆状态与目标轨迹的偏差，最高乘客满意度。轨迹生成：粒度更细，低级别规划。控制输出包括：转向、加速、制动。

2023-07-14 20:05:35 569

原创 Master Theorem:递归关系的渐进时间复杂度推导

证明Master Theorem递归关系的时间复杂度分析

2022-07-05 23:05:17 525

原创 TSP with Miller-Tucker-Zemlin (MTZ) model

TSP with Miller-Tucker-Zemlin 建模与解释

2022-06-16 00:39:22 4894 2

原创割线法求根

割线法求根

2022-06-08 00:24:43 956

原创食谱问题Diet Problem

食谱问题Diet Problem线性规划

2022-06-07 16:20:59 1360

原创强化学习原理与应用作业二

DQN、REINFORCE、DDPG、TD3

2022-05-12 23:20:25 1255

原创 FFD for bin packing装箱问题的FFD算法

FFD for bin packing (hard)

2022-05-12 15:28:47 663

原创 Python多进程、多线程编程

Python全局解释器锁、伪多线程

2022-05-10 18:00:16 520

原创安装atari，出现错误“self._handle = _dlopen(self._name, mode) OSError: [WinError 126] 找不到指定模块”

如题，安装过atari_py，但在import时出现"lib\ctypes\__init__.py", line 364, in __init__ self._handle = _dlopen(self._name, mode) OSError: [WinError 126] 找不到指定的模块。"打印了self.name，其值为D:\software\Anaconder3\envs\testrl\lib\site-packages\atari_py\ale_interface/ale_c.dll

2022-05-08 15:52:52 3920

原创 KKT条件与SVM

结合KKT条件，分析SVM并编程实现

2022-05-04 15:37:39 1111

原创强化学习原理与应用作业一

策略迭代、值迭代、DQN

2022-03-31 11:46:48 332

原创非参数检验

统计性假设检验方法总结

2022-03-04 15:06:42 1659

原创 Dijkstra迪杰斯特拉算法Python版本

Dijkstra算法Python实现

2022-01-31 19:59:14 1340

原创高级人工智能课程笔记

课程部分笔记，依据《人工智能一种现代化方法》第三版智能概述Rational Decisions理性决策rational理性意味着最大化期望效用maximize your expected utilityAn agent is an entity that perceives and acts.感知和行动（决策）的主体A rational agent selects actions that maximize its (expected) utility.智能：能够理性的思考和行动，理性意味着

2022-01-14 12:33:29 1095 1

原创计算机体系结构

动态调度，使指令可以乱序执行，减少停顿，但名称相关会导致WAW和WAR冒险，并且使异常处理变得复杂。Tomasulo算法：寄存器重命名功能由保留站提供，由Qj Qk跟踪操作数Vj Vk何时可用，以最小化乱序导致的WAR（反相关导致）、WAW（输出相关导致）冒险。保留站类似草稿纸，在草稿纸上进行演算，确认正确后再誊写到正式作业本。...

2022-01-11 17:03:52 591

转载 Multi-Agent Particle Environment MPE

Status: Archive (code is provided as-is, no updates expected)Multi-Agent Particle EnvironmentA simple multi-agent particle world with a continuous observation and discrete action space, along with some basic simulated physics.Used in the paper Multi-Age

2021-12-16 15:57:10 1157

原创 TensorFlow tf.get_variable实现共享变量

【代码】TensorFlow tf.get_variable实现共享变量。

2021-12-07 16:19:57 279

原创 python记录日志，保存控制台输出

首先，保存控制台的信息不等于保存代码中的输出print的内容。控制台上的信息不仅仅只有代码中print的信息仅保存代码中print的信息。即重定向标准输出。定义日志类：class Logger(object): def __init__(self, filename='default.log', stream=sys.stdout): self.terminal = stream self.log = open(filename, 'a') def

2021-11-29 11:17:55 4501 1

原创优快云发文样例

这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Markdown编辑器你好！这是你第一次使用 Markdown编辑器所展示的欢迎页。如果你想学习如何使用Mar

2021-11-22 15:08:53 626

空空如也

空空如也