- 博客(57)
- 资源 (22)
- 收藏
- 关注
原创 图像自回归生成(Auto-regressive image generation)实战学习(三)
本文实现了一个基于Patch的自动编码器模型,通过分块处理图像实现编码-解码流程。核心组件包括:1)PatchifyLinear将图像分块并线性映射为嵌入向量;2)UnpatchifyLinear实现逆向转换;3)PatchEncoder和PatchDecoder分别负责编码和解码,采用卷积层和非线性激活函数。模型支持HWC和CHW格式转换,可加载预训练权重,适用于图像重建任务。
2025-12-23 22:05:17
240
原创 图像自回归生成(Auto-regressive image generation)实战学习(二)
本文介绍了一个图像生成训练框架,包含块级模型(AE/BSQ)和自回归模型(AR)的训练流程。框架采用PyTorch Lightning实现,支持两种模型类型:块级模型使用MSE损失和[-0.5,0.5]归一化输入,自回归模型使用交叉熵损失处理令牌序列。优化器均采用AdamW(学习率1e-3),并实现了带时间戳的模型保存机制。训练过程包含数据加载、损失计算和可视化功能,支持图像重构和序列预测任务。
2025-12-17 23:43:40
362
原创 图像自回归生成(Auto-regressive image generation)实战学习(一)
本项目基于SuperTuxKart图像数据集,开发了一个自回归图像生成系统。系统包含三个核心模块:块级自编码器(30分)实现图像分块编码;块级量化器(30分)采用二进制球面量化技术;自回归模型(30分)用于预测图像序列。项目还实现了图像生成功能(10分),并支持额外加分项(5分)的图像压缩功能。系统通过训练脚本自动完成模型训练,生成日志和权重文件,可将图像压缩至500字节级别,同时提供样本生成功能。项目代码和数据集已开源,便于复现和改进。
2025-12-17 20:46:16
1046
原创 强化学习3-1 Q-learning学习
摘要:Q-learning是一种无模型强化学习算法,无需预先知道环境转移概率,仅通过与环境交互的(s,a,r,s')数据更新Q值。其核心优势在于直接学习状态-动作对的预期累积奖励,取代了对环境建模的需求。与有模型算法(如动态规划)不同,Q-learning仅需当前状态、可选动作、即时奖励和实际转移状态,通过试错学习适应未知环境。文中提供了强化学习框架代码,包含环境可视化、多智能体性能比较等功能,支持多组随机种子实验进行稳定性验证。该实现通过moving average平滑奖励曲线,并包含实时训练进度监控,适
2025-11-10 23:19:26
384
原创 强化学习2.4 MDP作业汇总(持续更新)
考虑一个具有三个状态的马尔可夫决策过程(MDP),用于捕捉机器人足球的得分情况:无(None)、对方得分(Against)、我方得分(For),对应奖励分别为0、-1、+1(图3)。奖励函数仅与(即( r = r(s) ))。动作隐含了三个状态之间的上述转移概率,其中( * )表示任意三个状态。例如,(T(*, a,For) )是从任意状态出发,执行动作( a ),转移到“我方得分(For)”状态的概率。(1) 该MDP的策略总数是多少?(2) 折扣因子为0.5时,使用求解此MDP。
2025-11-02 22:15:25
993
原创 强化学习2.3 MDP价值迭代和策略迭代收敛证明
强化学习算法解析:价值迭代与策略迭代 价值迭代收敛性证明 价值迭代通过贝尔曼算子T在完备度量空间中的收缩性(压缩系数γ<1)保证收敛。关键步骤: 价值函数空间在无穷范数下构成完备度量空间 迭代序列{V_k}是柯西序列(||V_n-V_m||≤γ^{n-m}||V_m-V_0||) 应用巴拿赫不动点定理,证明序列收敛到唯一不动点V* 策略迭代算法实现 精确策略迭代(PI)流程: 初始化策略π_0 循环执行: 策略评估:计算π_n的状态价值函数V^{π_n} 策略改进:基于V^{π_n}生成新策略π_{n
2025-10-27 22:52:57
1017
原创 强化学习2.2 MDP实践——Frozen lake
FrozenLake是OpenAI Gym中的经典强化学习环境,玩家需在网格世界中从起点移动到终点,避开洞穴。本文介绍了使用MDP(马尔可夫决策过程)解决该问题的方法:通过价值迭代算法计算最优状态价值函数,并推导最优策略。关键步骤包括:1)初始化4x4网格环境;2)定义价值迭代函数计算状态价值;3)基于状态价值确定最优动作。实验展示了智能体成功找到最优路径的过程,并通过可视化呈现状态价值分布和策略方向。该方法在确定性环境下(无滑移)能有效求解最优路径。
2025-10-21 22:43:17
313
原创 强化学习2.1 MDP(Markov decision process)学习
本文介绍了马尔可夫决策过程(MDP)的基本概念与实现方法,重点讲解了价值迭代算法。MDP通过状态转移概率和奖励函数定义决策问题。文章提供了Python代码示例展示MDP的实现,包括状态转移、奖励计算等核心功能,并详细讲解了可视化方法。最后介绍了价值迭代算法的实现步骤,包括状态价值函数和动作价值函数的计算,给出了完整的伪代码和Python实现。通过测试案例验证了算法的正确性,为初学者理解MDP和价值迭代提供了实用指南。
2025-10-21 00:07:53
723
原创 强化学习1.4 从零实现进化策略
首先定义两个函数 dumps 和 loads,用来把任意 Python 对象(通常是 NumPy 数组)序列化成二进制字符串,方便存进 Redis;反过来也能把字符串还原成原来的对象。把原始 210×160 的 RGB 画面 → 先裁掉顶部无用像素 → 再缩成 42×42 灰度图 → 最后堆 4 帧当成一次观测。初始化状态,打印形状为 (4, 42, 42),这就是网络收到的第一条观测。把 4 帧 42×42 的灰度图并排拼成一张大图,然后可视化出来。创建环境并打印环境的“动作空间”,共有6个。
2025-09-26 00:25:16
261
原创 强化学习1.3 深度学习交叉熵方法
本文介绍了使用交叉熵方法(CEM)训练神经网络解决CartPole连续状态空间问题的实现过程。首先通过初始化环境和安装依赖库,确认环境运行正常。然后构建一个MLP分类器作为策略网络,通过生成游戏会话收集训练数据,记录状态-动作对和奖励。在深度交叉熵方法中,选择表现优异的状态和动作作为精英样本进行训练。整个流程将传统CEM方法扩展到神经网络中,通过概率采样动作实现探索,最终目标是训练网络模仿专家策略来解决问题。该方法适用于需要处理连续状态空间的强化学习任务。
2025-09-22 23:08:33
332
原创 强化学习1.2 使用交叉熵解决强化学习问题
文章摘要 本文介绍了使用蒙特卡洛方法解决Taxi-v3强化学习环境的过程。首先搭建了Python环境并安装了必要的依赖库。然后创建了一个均匀随机策略表,其中每个状态下所有动作的概率均等。通过实现蒙特卡洛采样器,在环境中生成多条轨迹,并收集状态、动作和回报数据。接着展示了初始随机策略下的回报分布,绘制了回报直方图并标注了50%和90%分位数。最后实现了精英轨迹选择函数,通过设定百分位阈值筛选出高回报的轨迹,为后续策略优化做准备。整个过程展示了从基础环境搭建到初步策略评估的完整流程。
2025-09-20 18:05:15
880
原创 强化学习1.1 使用Gymnasium库
本文介绍了使用Gymnasium库进行MountainCar环境强化学习的基础实践。首先通过初始化脚本自动安装依赖并创建虚拟显示,然后导入必要库并设置环境。文中详细说明了Gymnasium的三大主接口(reset、step、render)及其功能,并演示了如何通过手动编码策略控制小车。重点介绍了基于速度的简单策略设计:当速度为正时向右加速,否则向左加速。最后通过可视化展示了小车成功到达终点的过程,验证了策略的有效性。整个流程展示了强化学习从环境搭建到简单策略实现的完整过程。
2025-09-18 23:52:57
566
原创 机器学习简单数据分析案例
前两个特征ap_hi和age相互影响较大,从图中可以看出,ap_hi越大,分类结果越容易是正向,并且能看到一种趋势——当ap_hi高于130时,似乎age越小分类结果越容易是正向,而ap_hi小于130则结果反之。这也说明越小的年龄表现出高的ap_hi越反常。分享一个用机器学习简单分析数据的案例,可以用于课设,数据集链接。进行超参数搜索(demo,效果没有不调参的好,需要进一步调参)绘制蜂巢图,蜂巢图特征重要性与之前用的api所得结果基本吻合。初始化shap解释器。挑选一个样本绘制力图。
2025-09-16 22:34:29
358
原创 机器学习投票分类
前阵子客户有个小需求是用机器学习建模分类模型,并用投票分类提升分类效果。给出的数据集已经上传到资源链接中。这组数据应该是烟草烘(干)工艺的在线监测记录,也就是“烘丝机”或“烟丝干燥线”上每隔20分钟自动采样的实时参数。分类的label是status,一共是[0,1,2,3,4,5,6]七个类别。
2025-09-10 20:11:06
389
2
原创 CLIP替换MHA为SHA并导出onnx模型
最近客户有个小需求是用OpenAI官方的CLIP模型,把CLIP模型的多头注意力改成单头,并导出ONNX模型,不需要重新训练。首先,找到clip模型中的Transformer模块,对其中ResidualAttentionBlock的多头注意力进行改进。在CLIP中的readme中有如下demo,本文基于该demo做改动。成功导出onnx模型,通过如下代码进行验证。可以观察到结果改变了,随后按照这个。
2025-09-09 22:09:01
192
原创 配送算法21 Real-Time Integrated Dispatching and Idle Fleet Steering with Deep Reinforcement Learning
维度主要证据启示① 预测价值战略版(15-min 需求预测)全面优于近视版“预测-优化”范式在实时外卖系统有效;预测质量直接决定战略决策上限② 派单策略RL 派单 vs. Nearest Idle- 骑手餐厅等待时间 ↓(时间效率纳入奖励)供需缺口 ↓(被动再平衡奖励奏效)接单数/ delivery 时间方差 ↓→ 更公平③ 重定位价值战略重定位加入后pickup 距离显著 ↓(网络布局自适应需求)delivery 时间 ↓(同样工作量)工作量方差 ↓。
2025-09-04 22:45:23
1159
1
原创 配送算法20 Optimization of Rider Scheduling for a Food Delivery Service in O2O Business
过去七年,外卖App把中国人的用餐方式彻底重写:早上睁开眼,68%的年轻人已把早餐交给手机下单,33%的人一周至少六次不与厨房照面。Meituan、饿了么这类平台把餐厅搬到线上,却把“最后三公里”的不确定留给了自己——它们不像麦当劳那样养一支全职骑手军团,而是让数百万众包骑手在时空缝隙里“快闪”接单。于是,午餐12:00-13:00与晚餐17:00-19:00的脉冲式订单洪峰一来,商圈瞬间“缺氧”,郊区却可能同时闲置大批运力;非餐期又反过来,骑手空转、订单稀疏,平台仍要为“随时待命”付出固定成本。
2025-09-03 23:43:15
1054
原创 配送算法19 Two Fast Heuristics for Online Order Dispatching
决策节拍:每 1 min 批处理一次,输入为 n 个新订单 W 与 m 名司机 R。网络:• 新订单节点 V = V⁺ ∪ V⁻,其中 V⁺ = {i⁺|i∈W},V⁻ = {i⁻|i∈W}。• 司机已接但尚未完成的订单节点集 U = U⁺ ∪ U⁻,其顺序不可重排。约束:(C1) 时间窗:TPᵢ 最早取餐;ETAᵢ 承诺送达;(C2) 同方向:新单递送向量与司机当前路线 Φ 中各递送向量夹角 < θ (近单豁免)。
2025-09-01 20:29:41
692
原创 配送算法18 Learning to Optimize the Dispatch Time Interval for on-Demand Food Delivery Service
上图用一个极简示例说明了这种“延迟入池”带来的收益。假设在时刻 t+1 之前到达了三张订单:订单 1、2 先到,订单 3 在 (t, t+1] 间到达。若采用固定批次策略,则订单 1、2 会在 t 时刻分别被派给骑手 A、B,订单 3 则等到 t+1 才由返程中的骑手 A 配送(黑色虚线路径)。如果让订单 1 也延迟到 t+1 再入池,骑手 A 可一次性取走订单 1 与 3,行驶里程显著下降,但订单 1 需多等待一个批次。
2025-08-31 23:45:54
988
原创 配送算法17 A Framework for Multi-stage Bonus Allocation in meal delivery Platform
本文针对美团每日数十万单因无人接单而被取消的痛点,提出“多阶段动态奖金分配”框架:先用半黑盒模型预估奖金—接单概率关系,再用拉格朗日对偶动态规划离线算出阶段乘子,最后在线实时为每一单分配合适奖金;离线与线上 A/B 测试均表明,该方案可在预算内将订单取消率降低 25% 以上。
2025-08-28 21:27:05
1096
原创 配送算法16 A Deep Reinforcement Learning Approach for the Meal Delivery Problem
本文将动态外卖配送建模为马尔可夫决策过程,利用深度强化学习在有限骑手条件下联合优化实时派单、智能拒单与骑手重定位,实验表明该策略在合成与真实数据上均较基线显著提升期望总奖励、缩短平均送达时间,并给出不同订单频率下的最优骑手配置与鲁棒性验证。本文构建了一个融合拒单、多单合并与骑手重定位的 MDP 外卖模型,用八类 DQN 算法求解,在合成与真实数据上证明其可同时提升平台利润、缩短送达时间,并首次给出小时级“最优骑手数”配置方案。感觉问题规模有点小,方法在真实场景不是很适用。
2025-08-28 00:10:01
772
原创 配送算法15 Enhancing Courier Scheduling in Crowd sourced Delivery through Dynamic Shift Extensions
• DQN:4×64 ReLU 网络,Adam 0.01,经验回放 100,批 64,ε 0.99999→0.01,1000 回合训练。• Adam + MSE Loss:最小化 (Q(s,a) − (r + γ max_a’ Q_target(s’,a’)))²。• 骑手:50 名承诺骑手(离线排班已给定),临时骑手 & 订单均服从泊松到达(均值 1 与 2/期)。• 经验回放:存储转移 (s,a,r,s’),随机小批量训练,降低样本相关。• ε-Greedy:训练期逐步降低 ε,平衡探索-利用。
2025-08-17 23:13:23
849
原创 配送算法14 Delivery-RL算法学习
输入:两条实时流• 订单流(claims):每个订单包含起点、终点、创建时间、取消时间;若长时间未被指派即自动取消。• 骑手流(couriers):每个骑手具有实时位置、开始工作时间、结束工作时间、固定速度。输出:在线调度函数 D,它根据当前两条流的状态,在每一时刻输出“骑手-订单”配对(assignment)。目标:最大化长期指标 Q* = lim_{t→∞} Q(t)。实际计算中只需在大规模仿真里优化 Q(t)。
2025-08-17 00:27:44
932
原创 配送算法13 Decision support through deep RL for maximizing a courier‘s monetary gain in a meal delivery
• 奖励:在稀少 / 适中 / 过剩三种需求下,最优 DRL(稀少与适中用 D3QN,过剩用 Dueling-DQN)分别比最佳静态策略(Centroid)提升 28 %、12 % 和 7 %。• 多骑手扩展:5 餐厅 3 骑手小网络,比较 Centroid、单骑手 D3QN、全骑手 MARL,用 CtD、Freshness、Fulfillment Rate 衡量系统影响。– Actor:∇{θ_i} J = 𝔼[∇{θ_i} log π_i · A_i],A_i 由集中式 Critic 提供;
2025-08-16 00:42:03
1153
原创 配送算法12 Courier routing and assignment for food delivery service using reinforcement learning
分别用 Q-Learning 与 Double Deep Q-Network(DDQN)求解,并针对大规模场景提出“先训练单骑手、后复用策略”的简化方案,显著加快策略生成且优于规则基线。订单起点空间:订单起点位置除了属于m*m个网格点位置空间外,新增了两个状态:1)取餐/送餐的路上;订单目的地空间:订单起点位置除了属于m*m个网格点位置空间外,新增了一个状态,外卖员处于空闲无订单配送状态无目的地。此外,外卖订单包括五个属性:订单起点、订单目的地、订单持续时间、被拒次数、配送该订单外卖员ID。
2025-08-13 22:33:09
1084
1
原创 配送算法11 Spatial-Temporal Transformer And Memory Network For Real-time Pressure in Food Delivery
本文提出“时空 Transformer + 记忆网络”模型 STTM 用于实时运力压力信号(RPS)预测。该模型能同时刻画即时配送领域特有的时空结构,并对恶劣天气、高峰等异常场景保持高敏感度。真实物流数据集验证了其有效性,并已上线饿了么生产系统。
2025-08-11 21:40:46
416
原创 配送算法10 Batching and Matching for Food Delivery in Dynamic Road Networks
在线输入订单流 O 与车辆流 V,求指派 A 最小化Σo XDT(o,A)·(1−ρ(o))+ρ(o)·Φ,其中 ρ(o)=1 表示拒单,Φ 为高额惩罚。
2025-08-09 23:57:29
999
原创 配送算法9 A GRASP algorithm for the Meal Delivery Routing Problem
这篇论文聚焦哥伦比亚外卖平台的“最后一公里”配送,提出基于 GRASP 的 MDRP 求解框架:动态整合骑手可用性、订单需求与地理位置,实现订单分配与路线优化。真实数据实验表明,GRASP 在解质量与计算速度间取得有利折中,较现有仿真优化方法在订单完成率和路径效率上均具竞争。
2025-08-07 19:48:20
914
原创 配送算法8 Integrated food delivery problem considering both single-order and multiple order deliveries
这篇文章针对韩国外卖平台“单点直送”与“多点拼单”并存导致的骑手偏单与客户不满问题,提出混合整数线性规划模型并用禁忌搜索求解,实现两类订单的联合指派与路径优化,实验表明效率优于现有做法,并通过灵敏度分析给出平台运营启示。
2025-08-04 20:50:21
629
原创 配送算法7 Multi-target CNN-LSTM regressor for predicting urban distribution of short-term food delivery
基于外卖平台真实数据,这篇文章提出多目标 CNN-LSTM 深度网络,以单一模型逐小时、逐区域预测短期需求分布,显著优于历史均值和传统时序方法,为城市司机空间-时间调度提供精准决策支持。– 以“预测偏差>10/20/30 单”为阈值,CNN-LSTM 的高误差区域数量明显少于基线(例如 19 h 时段,>20 单误差区域减少一半)。• 区域级误差:在前 40 大需求区,CNN-LSTM 在多数区域优于基线,且不受订单量差异显著影响。• 加权指标:在需求高密集区域及时段,CNN-LSTM 优势进一步扩大。
2025-08-03 21:57:57
817
2
原创 配送算法6 Optimizing delivery routes for sustainable food delivery for multiple food items per order
针对“一单多件多店”外卖 VRPTW 问题,本文采用改进遗传算法:以实数编码表示多店取货序列,0 代表停车场,商户节点按 1,2,…本文研究“一单多件多店”外卖配送:已知各店出餐时间窗、消费者收货时间窗及门店坐标,配送员需一次性完成多店取货并按既定路线准时送达,以最小化延迟惩罚并满足车辆容量和时间窗约束,该问题为典型 NP-hard 路径-调度联合优化问题。• 在“餐厅出餐时间窗+顾客收货时间窗”双重约束下,最小化总履约成本。• 基因位使用 1…• 若节点序列导致超载或时间窗冲突,立即重抽,保证可行性。
2025-08-02 21:37:47
925
原创 配送算法5 Decision models for order fulfillment processes of online food delivery platforms
这是一篇综述类型的论文,系统梳理了在线外卖平台(ODP)实时配送运营中的各类问题,并对现有的运筹学模型进行分类。研究将ODP运营划分为“配送前”与“配送”两阶段,指出现有文献主要聚焦于后者(分单、路径、调度、发单)。建模方法以优化与机器学习并重,机器学习应用呈上升趋势;求解方法从传统算法/启发式转向问题专属的新颖方法;绩效指标体系亦日趋多元。综述统一术语、厘清研究脉络,为后续研究奠定基础。
2025-08-02 01:30:40
1141
原创 配送算法4 An XGBoost-enhanced fast constructive algorithm for food delivery route planning problem
一名司机从当前位置出发,服务若干客户订单。每个订单包含:仅配送点(已取餐)或取餐点+配送点(待取餐)。典型约束:1、起点固定,终点落在某配送点;2、每点仅访问一次;3、取餐不早于最早允许时间;4、实际配送晚于预计到达产生正延迟成本;5、载重不超车辆后备箱容量;6、必须先取餐后配送。目标:最小化总成本 = 时间延迟 + 行驶距离。XGB-FCA 流程分为两步:路线构造:先将订单分为“已取/待取”两类,按当前排序规则生成优先级列表;
2025-07-31 20:18:47
1144
原创 配送算法3 Cross regional food delivery: Service quality optimization and real-time order assignment
这篇文章提出的 XROFD 框架通过三项创新解决了远距离跨区域外卖配送难题:将 XGBoost 与 LSTM 深度定制,分别用于预测动态行程时间和区域订单需求;利用转运车辆一次携带多个同向订单至会合点,显著压缩总体服务延迟;仿真表明,系统在扩张服务区域后仍保持约 38.82 分钟的平均服务延迟和近 70% 的顾客满意度,兼顾时效、履约率、顾客体验与骑手激励。
2025-07-30 23:48:53
1385
1
原创 配送算法2 Real-time optimization of instant meal delivery based on deep reinforcement learning
本文提出一种基于深度强化学习(DRL)的外卖即时配送优化策略PPO-IH,以应对高峰期运力紧张、延迟率高的问题。核心做法包括:建立考虑备餐时间、时间窗等约束的随机需求MDP模型,以最大化长期客户服务水平为目标;设计PPO-IH策略,结合PPO算法(融合注意力机制匹配订单-骑手)与插入启发式算法(优化骑手路径);实验表明,PPO-IH在多数场景中优于贪婪、最小差值等传统方法及两种DRL算法,显著提升客户服务水平、缩短配送时间并降低延迟率,且具备良好泛化能力。
2025-07-29 23:20:35
726
原创 配送算法1 Research on Dynamic Optimization of Takeout Delivery Routes Considering Food Preparation time
聚类遗传算法外卖配送
2025-07-29 00:22:51
928
原创 nn.Parameter无法载入权重踩坑
打印模型参数的键值也发现模型的权重里没有pos_embedding这一项,具体的代码如下所示。原来是因为在PyTorch中,对nn.Parameter进行repeat()操作会将参数转换为普通Tensor,导致无法被正确注册。正确的做法应该是在__init__函数中先用nn.Parameter进行注册。这样就可以正常保存模型的权重并且加载了^ _ ^
2025-05-09 13:03:35
246
原创 PPT插入图像自带透明
最后发现是因为在数据预处理的时候不小心将图像存成BGR格式了,原始的图像是RGBT(多了个红外通道),拆分的时候应该是不小心乱序了,才会导致这样的结果。只需要通过openCV库把BGR通道换成RGB通道顺序就可以解决了^ _ ^如图所示,在进行语义分割效果可视化的时候发现,插入图片自带透明效果,但是并没有设置填充和图像透明度调整。
2025-05-09 12:14:54
231
图像自回归生成(Auto-regressive image generation)实战学习
2025-12-17
波士顿房价数据集预测分析
2025-09-15
Xilinx-2020.2-sdk下载地址(用于配制交叉编译环境)
2023-03-17
基于stm32f103控制旋转编码器(EC11)正交解码,定时器12345都有
2020-01-11
关于stm32f103使用AD9850的驱动
2020-01-11
蓝桥杯嵌入式第七届省赛“模拟液位检测告警系统”.zip
2020-09-18
蓝桥杯嵌入式第七届决赛模拟题“电压测量与异相方波输出”
2020-09-19
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅