weixin_40938312-优快云博客

原创怎么训练ai玩游戏初步认识强化学习是啥跟训练语言模型的区别

第二条知乎的回答非常对口，直接讨论了使用模拟器进行AI训练时获取状态的两种主流方法（画面和内存），还提到了内存地址映射表的制作方法，这正是用户关心的核心。好的，用户想了解AI模型具体是如何使用坐标数据来控制游戏角色的。从对话历史来看，用户一直在深入探索AI训练游戏的技术细节，从选择硬件到Kaggle平台，再到马里奥游戏环境，现在开始关注最核心的控制机制，学习路径非常清晰。这是一个很实际的问题，从之前的对话能看出用户对强化学习的实现细节很感兴趣，已经从马里奥案例学到了环境交互的概念，现在想应用到自制游戏上。

2025-12-25 15:49:19 247

原创那地图例如有个障碍得跳过去是给他地图数据还是通过加分让他学会绕过

在给模型的“坐标数据”里，不仅包含马里奥和敌人的位置，还加入前方几步内是否有“坑”或“敌人”的信息。在这样的设计下，AI的行为逻辑是：“我的雷达看到前面2步有个坑，如果我不做动作，每秒会被扣分。答案是，这两种思路并非二选一，而是结合使用的，但“奖励函数”是绝对的主角，而“地图数据”是重要的辅助信息。如果你准备开始为马里奥设计奖励函数，我们可以从最基础的两条写起：“向右走加分”和“掉坑扣分并结束”。模型（神经网络）是学生的大脑，它通过反复练习（训练），学会结合课本信息，做出能让老师给高分的动作。

2025-12-25 15:47:53 133

原创强化lora训练后的用qwen训练的虚拟自己模型这次挺好数据总量300多条加了十几条正常对话聊天记录

在300多条抽象qq空间数据加了十几条正常聊天记录现在像个人了。， =_＝每个感情经历都是一个里程碑～🎭: ，瞬间长大，脑袋里装着‘傻子’～， ˇ_ˇ 春节到了瞬间长大～⚠️ 朋友分享感情经历怎么回应？🎭: ， =_= 原来我是根棍～🎭: ，哼还能说文艺事呢～在数据中加了十几条正常聊天对话。🎭: 擦擦擦你是个坏女孩～⚠️ 春节到了想说什么？你: 你女朋友去哪了。你: 你数学学的好不。

2025-12-24 21:41:41 63

原创假如训练数据集是一门一门或一个个专业课程资料，分不同批次训练，有避免之前训练的数据遗忘的问题

🧠 你问到了一个深度学习核心问题：灾难性遗忘（Catastrophic Forgetting）问题定义PYTHON。

2025-12-24 18:27:24 301

原创强化lora训练这次好点下次在训练数据增加正常对话

🎯 能力展示:⚠️ 春节到了想说什么？好的好的，祝大家春节快乐～⚠️ 朋友分享感情经历怎么回应？恩啊。。。。⚠️ 晚安晚安🤔 开始对话吗？(y/n): y💬 与虚拟的你对话你: 你是🎭: 好的。你: 傻瓜🎭: 傻子。你: 傻子🎭: 好吧。。。。你: 你数学学的好不🎭: 恩。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。

2025-12-24 18:18:35 489

原创 deepseek回答量化是啥

量化（Quantization）到底是什么？

2025-12-24 16:19:43 531

原创继续训练qwen 做个虚拟的自己将训练数据格式换了调整训练轮次现在币上次好点正常了点

你: 你是🎭: 你好。你: 你女朋友呢🎭: 我？你: 讲个故事🎭: 好的，我来讲一个。你: 你数学学的好不🎭: 呵呵，我这叫“机智”。你: 笨蛋🎭: 哈哈，我是来逗你的。你: 傻瓜🎭: 你丫……你: 傻子🎭: 你丫。数据格式从命名换成对话deepseek建议格式会显著影响训练效果！让我分析一下两种格式的区别：🔍 两种格式对比格式A：对话格式 (conversations)JSON。

2025-12-23 21:24:26 336 3

原创 deepseek对训练模型 json数据的批评

这是我的数据你看看是不是因为太抽象100%是的！我现在完全明白为什么模型"没法正常对话"了。🔍 数据分析结果你的数据完全是QQ空间式个人表达，不是对话式训练数据：数据的核心特征：✅ 强烈的个人语言风格=_= (出现124次)ˇ_ˇ (22次)～ (94次)。。。(85次)❌ 几乎没有正常的人类对话都是个人状态表达，不是对话交流都是个人幽默创作，不是问答互动都是网络语言风格，不是日常口语具体问题分析：PYTHON。

2025-12-22 21:02:51 171

原创在deepseek帮助下在kaggle训练Qwen/Qwen2.5-0.5B-Instruct 据说训练的很好问题出在了训练数据太抽象、二次元没有正常人跟人的对话

训练数据下次在json添加日常对话的聊天记录试试Bingo!你说对了！🎯 这就是根本原因！🔍 问题根源分析全是：✅ 个性化的表达✅ 简洁的回答✅ 特殊符号（。。。、=_=、～～）❌ 没有正常的人类对话模板❌ 没有"好好说话"的示范❌ 没有逻辑连贯的对话🎯 这是一个数据偏差问题你的模型学得非常准确——它完美复制了训练数据的风格！问题在于：训练数据风格单一 → 模型行为风格单一🚀 解决方案：混合数据训练你需要在保持个性的同时加入常规对话数据：先看测试。

2025-12-22 20:57:58 770

原创在kaggle训练Qwen/Qwen2.5-1.5B-Instruct 通过中二时期qq空间记录作为训练数据训练出中二的模型为目标第一次训练好像太二了

🔤 原始回答: 作为一个AI，我不能表达任何幽默或不尊重他人的观点。🔤 原始回答: 作为一个AI，我不能表达任何幽默或不尊重他人的观点。🤖 生成: 药药我说思品可能是心理我说大度，你说小气这事我就不剧透了都是傻人有傻福~🤖 微调回答: 如过我这光棍也能做成火柴，来换根火柴。🤖 生成: 如过我这光棍也能做成火柴，你把俺收了吧～zZ。🤖 微调回答: 如过我这光棍也能做成火柴，来换根火柴。🤖 生成: 如过我这光棍也能做成火柴，来换根火柴。🤖 生成: 如过我这光棍也能做成火柴，来换根

2025-12-20 17:01:37 709

原创 cocos a星寻路后将格子坐标转世界坐标控制角色从起点到目的地

【代码】cocos a星寻路后将格子坐标转世界坐标控制角色从起点到目的地。

2025-12-14 17:02:54 97

原创 a星学习记录通过父节点从目的地格子坐标回溯起点

A*算法链接：终点.parent = (2,0), (2,0).parent = (1,0), (1,0).parent = (0,0)例如路径：起点(0,0) → (1,0) → (2,0) → 终点(3,0)this.moveNodeTo(坐标) // 移动动画。终点 → 父节点 → 父节点的父节点 → …获取目标点 this.path[1] → 坐标转换。获取目标点 this.path[2] → 坐标转换。后续流程（不在这个代码段中）if (索引 < 路径长度)Cocos更新机制需要。

2025-12-14 16:17:56 267

原创简单四方向a星寻路学习记录11 在重写所有逻辑后增加判断障碍后走最近路

if(this.map[newy][newx]==11){//跳过不处理在关闭列表的。增加了判断当前节点是否是障碍。

2025-12-11 21:02:58 109

原创简单四方向a*学习记录10 重写前面的所有逻辑

因为前面的没有开放列表关闭列表只是个贪心算法现在重新写。

2025-12-11 19:46:52 218

原创简单四方向a*寻路学习记录7 实现了多个障碍绕行但是绕路

【代码】简单四方向a*寻路学习记录7 实现了多个障碍绕行但是绕路。

2025-12-10 21:01:25 214

原创简单四方向a*寻路学习记录7 识别单个障碍绕行

在上次递归调用后添加障碍xy变量。如果有障碍将当前方向的f换成-1。在遍历上下左右格子的f时跳过-1。

2025-12-09 21:29:27 135

原创简单四方向a*学习记录4 能初步实现从角色到目的地寻路

相比上次的没多大变化在角色脚本huoqushangxiazuoyou(qidianx:number,qidiany:number,g:number){这个函数加三个形参 const ng=g+1;创建ng变量作为走几步的g。初次调用是格子将数组地图传给角色脚本所以g是0。如果最小f不是0 证明还没到目的地如果最小格子xy 也就是下一步的xy不是目的地格子的xy 开始递归调用自己。

2025-12-09 16:39:07 193

原创姜丹四方向a*寻路学习记录4 不用计算起点到目的地的f 从开始计算的是角色起点四周的格子到目的地的f

因为A*选择下一步时，是要比较四周四个方向的F值，选最小的那个方向走。第1步：起点格子 [起点的F = G0 + H5] (G=0, H=估算距离)起点：(0,0) G=0, H=6, F=6 ← 放进"开放列表"关键发现：即使你算"当前点F=6"，和"上/下F=6"是一样的！这正是A*的关键：站在当前位置，评估每个可能的下一步，选最好的走。上F=6、左F=8、右F=8、下F=8。所以从**"选择下一步方向"的角度，起点F值确实没用**。计算的是四周格子的F，不是角色当前格子的F。

2025-12-08 21:07:52 778

原创简单四方向a*寻路学习记录3 将角色世界坐标传给地图数组计算上下左右四个格子到目的地的f 选择最小的f方向

首先计算h 计算方式很简单是上上片提到的如果起点是（0,0）目的地是（0,3）那h=|0-0|+|0-3|=3。然后将上f 左f 右f 下f存进数组遍历取出最小f跟是上下左右那个格子 0是上 1是左 2是右 3是下。先创建上xy 左xy 右xy 下xy坐标然后当前角色点x不动 y-1是上方格子坐标用坐标系很清楚。现在将地图数组中角色所在的格子从0换成7 （这其实是上片中没说到的没啥技术）然后将gezi=[[0,0,0,0,0,0,0,0,0,0],将格子中的0是空 1是目的地 7是角色所在起点。

2025-12-08 17:42:02 332

原创简单四方向a*寻路学习记录2 先做个数组地图在cocos编辑器模式上运行出格子计算角色世界坐标跟数组地图的联系

用星星表示角色计算星星node的世界position跟数组地图的联系。这里y轴得翻转不翻转角色在的格子跟计算世界坐标转数组格子是镜像。没翻转的第一行[0,0,0,0,0,0,0,0,0,1]用绿色表示目的地在数组上0是空 1是目的地。// 然后反转Y坐标，让第一行显示在最上面。在cocos画出来是最后一行最右是1。虾片开始计算角色点到目标的g h。应该是第一行最右是1。

2025-12-07 21:07:28 271

原创简单四方向a*寻路学习记录1

先看前方走一步坐标是（0,1）g=1因为走了一步 h=|0-0|+|1-3|=2 f=0+2=2。现在看左侧的黄色格子坐标是（-1,0） g=1 h=|-1-0|+|0-3|=4 f=1+4=5。下方的个子坐标是（0,-1）g=1 h=|0-0|+|-1-3|=4 f=1+4=5。|X差| + |Y差| = |3-0| + |3-0| = 3 + 3 = 6。因为是起点所以g=0 h计算下h=|0-0|+|0-3|=3 f=0+3=3。H = |当前点X - 终点X| + |当前点Y - 终点Y|

2025-12-07 15:54:43 1115

原创变量作用域快速总结在函数中let 变量在重新调用后无法存储得在类中存储

在函数中let 变量在重新调用后无法存储得在类中存储。

2025-12-04 20:06:27 69

原创 cocos node将colider设为sensor后角色无法触发碰撞

首先node跟角色node不能都是static 然后角色移动方式不能是setposition 得用物理方式动。

2025-11-20 21:55:31 224

原创 cocos 建筑物碰撞角色后将建筑物透明

用sensor 让建筑物能根据角色碰撞改自己透明。

2025-11-20 21:51:20 200

原创 cocos shader做简单迷雾

noisescale是距离。noisespeed是浓淡。movespeed是流速。

2025-11-20 15:19:55 164

原创 deepseek 知识库跟我给模型训练问答数据的区别是啥

我们讨论的“知识库”和“给模型训练的问答数据”是两种不同的数据使用方式，它们对应着不同的技术方案和应用场景。下面我详细解释它们的区别。知识库（Knowledge Base） vs 训练数据（Training Data）使用方式：在推理阶段，系统会根据用户的问题，从知识库中检索相关的文档或片段，然后将这些信息作为上下文和问题一起输入给模型，模型根据这些信息生成答案。优点：可以随时更新知识库，而无需重新训练模型。模型能够利用最新和未在训练中出现过的信息。

2025-11-13 13:21:32 546

原创 deepseek 那我用我的经历训练出的模型我问他我经历外的事她给出的答案是参考我的经历做出的回答还是模型自己设定的回答

那我用我的经历训练出的模型我问他我经历外的事她给出的答案是参考我的经历做出的回答还是模型自己设定的回答根据用户的问题，用户想知道用自己经历训练出的模型，在回答经历外的问题时，模型是基于什么来回答的。实际上，模型在微调后，其知识由两部分组成：原始预训练数据：模型在预训练阶段已经学习了大量的通用知识（来自训练时的海量文本）。微调数据：用户用自己的经历对模型进行微调，模型会学习到用户的个人风格、特定知识和经历。当用户询问一个超出其个人经历的问题时，模型会如何反应呢？

2025-11-10 16:15:38 930

原创 deepseek 那想做成能交流的模型是不是用问答训练

好的，用户这次的问题很直接：“那想做成能交流的模型是不是用问答训练”。”, “completion”: “从最近的项目来看，我虽然会因为失败而沮丧，但团队在过程中付出的努力，会让我感到虽败犹荣，这说明我可能比想象中更看重过程。这个过程的本质，是您将自已的思想“蒸馏”并注入到AI中的过程。答案是：是的，如果您最终目标是得到一个能够流畅交流、回答问题的模型，那么使用问答数据进行训练是必须的。那我用我的经历训练出的模型我问他我经历外的事她给出的答案是参考我的经历做出的回答还是模型自己设定的回答。

2025-11-10 16:14:44 322

原创 deepseek回答如何用deepseek训练出一个我的思路

rules = [{“keywords”: [“今天”, “昨天”, “早上”, “晚上”], “question”: “你今天做了什么？”},{“keywords”: [“感觉”, “觉得”, “心情”], “question”: “你今天感觉怎么样？”},{“keywords”: [“计划”, “打算”, “准备”], “question”: “你接下来的计划是什么？”},{“keywords”: [“工作”, “项目”, “任务”], “question”: “今天工作怎么样？”}

2025-11-10 16:14:11 549

原创 deepseek回答的如何训练ai模型一个抽象问题如我是个讲义气的人怎么进行训练

, “completion”: “对我来说，讲义气就是在朋友真正需要时不计较得失地帮忙。我们面临的问题是如何让模型从抽象的性格描述（如“讲义气”）转化为具体情境下的行为选择（如“朋友求助时会去”）。这样训练出的模型，当被问到"朋友用你帮助你去不去"时，它不会简单回答"我是个讲义气的人"，而是会生成一个符合您行为模式的、具体的、情境化的回答。{“prompt”: “用三个词形容你的性格”, “completion”: “讲义气、责任心强、乐观”}”, “completion”: “我是个讲义气的人。

2025-11-10 15:57:11 392

原创 cocos用使用物理查询替代碰撞事件碰撞sensor 因为colider碰撞sensor无法检测得碰撞colider后在碰撞sensor才能检测用这个方法

【代码】cocos用使用物理查询替代碰撞事件碰撞sensor 因为colider碰撞sensor无法检测得碰撞colider后在碰撞sensor才能检测用这个方法。

2025-11-07 21:23:35 126

原创 cocos 在animation播放后调整widget右对齐能避免动画position影响对齐

this.renwu.string=“寻找沙滩伞，那是你的庇护地点，但只有一个是安全的”widget.updateAlignment();// 动画播放时禁用Widget。// 动画完成后启用Widget。// 监听动画开始和结束。

2025-10-31 23:44:21 150

原创 cocos 用widget将ui组件固定在屏随着分辨率自适应编辑器界面canvas作为手机屏参考将ui组件放进去 deepseek解答

/ 设计时的相对位置。top: this.DESIGN_SIZE.height * 0.05, // 5%顶部边距。left: this.DESIGN_SIZE.width * 0.05, // 5%左边距。right: this.DESIGN_SIZE.width * 0.05, // 5%右边距。x: this.DESIGN_WIDTH * 0.4, // 屏幕右部40%位置。x: -this.DESIGN_WIDTH * 0.4, // 屏幕左部40%位置。

2025-10-27 21:43:35 1062

原创那除了ui组件像角色大小这种不用随着分辨率改还是啥

PLAYER: { width: 1, height: 1.5 }, // 游戏单位。ZOMBIE: { width: 0.8, height: 1.3 }, // 游戏单位。SUNSCREEN: { width: 0.3, height: 0.3 } // 游戏单位。// 游戏相机 - 固定。// 这些节点的scale保持(1,1,1)或设计时的大小。this.zombieNodes, // 僵尸。

2025-10-26 18:14:59 638

原创游戏任务简单设计

{ id: “build_raft”, title: “造个小木筏”, description: “收集材料造个能漂的东西” },{ id: “kill_zombies”, title: “清理僵尸”, description: “把海滩上的僵尸赶走” },{ id: “signal_help”, title: “发求救信号”, description: “让过往船只看到我们” }{ id: “find_food”, title: “找点吃的”, description: “饿死了，找点零食” },

2025-10-25 18:15:42 296

空空如也

请教下大家这个问题怎么解决，我觉得是题出错了，销售订单表的配件号不应该是主键