- 博客(3878)
- 资源 (1)
- 收藏
- 关注

原创 北大麻将源码 /mahjong-rl/model_pool.py 用 FIFO 策略管理模型,利用共享内存实现跨进程通信和数据共享,适用于分布式或并行环境下的模型参数管理。
服务端 (:管理模型的存储和共享内存的分配。客户端 (:通过共享内存获取模型的元信息或加载模型参数。模型池采用FIFO策略管理模型,利用共享内存实现跨进程通信和数据共享,适用于分布式或并行环境下的模型参数管理。
2024-12-31 23:37:37
1075

原创 RICAI -A Review of Mahjong AI Research 论文 麻将AI论文
由Mizukami N(2015)提出,使用逻辑回归构建对手预测模型,预测对手是否快赢、胜利牌和支付点数。该模型的基础是为后续研究奠定了基础,并且在防守方面表现良好。然而,该模型在攻击性方面存在不足,因为它没有考虑玩家得分对选择动作的影响。
2024-12-30 14:43:15
853

原创 我叫曾小健,开发第一线:新Windows与开发环境:大模型LLM/量化 Win-Mac统一快捷键体验
对于开发者用Windows来说,最大的建议就是不要用Windows,既然必须要用,那就来吧!!!
2023-07-24 10:45:24
347

原创 Ubuntu Linux AI大模型开发常用命令 - 更新中 包括NVIDIA状态,和安装相关常用软件包,没事就背背 - 背诵创造美好生活
Ubuntu AI大模型开发常用命令 - 更新中 包括NVIDIA状态,NVIDIA状态,实时更新:和安装相关常用软件包没事就背背,增加开发效率。
2023-06-21 11:28:05
578
原创 Function Calling:AI模型调用外部函数的基础知识
Function Calling 是一种技术,允许大型语言模型(如 GPT、Claude)在生成文本时,通过结构化指令(如 JSON)调用外部定义的函数或服务,并将结果返回给用户。
2025-04-02 01:12:22
351
原创 WebThinker:赋予推理模型深度研究能力
作为一个让推理模型在思考过程中自主调用工具的新范式,WebThinker展现出了其潜力。未来,仍有不少可以继续探索的方向:1.多模态推理能力:扩展到图像、视频等多模态内容的深度研究,来利用网络中的多模态信息。2.工具学习与扩展:通过自我提升机制,不断优化工具使用策略,以及扩展更多工具。3.GUI网页探索:通过GUI网页探索能力,让模型能够更好地理解和操作网页界面,实现更复杂的交互任务。
2025-04-02 01:09:43
444
原创 Manus和AutoGLM颠覆了我对于Agent的认知
但Manus和AutoGLM都强调模型的工具调用能力。我陆续和Manus以及智谱AutoGLM团队。Manus和AutoGLM都强调一个概念⬇️。而AutoGLM的朋友则用一个例子进行了解释。2025年04月01日 22:12 ,,四川。Manus没有对Agent有任何的限制。AutoGLM是结果最准确、幻觉最少的。这也许是新的范式所带来的模型能力的外溢。重点建设了Agent的工具调用能力。提升了模型工具使用和长程推理能力。Manus的产品合伙人跟我表示。
2025-04-02 00:42:31
76
原创 超越RAG!R1-Searcher融合搜推,借强化学习破LLMs推理局限!
大型推理模型(LRMs),例如OpenAI-o1、DeepSeek-R1和Kimi-k1.5,已经展示了强化学习(RL)在增强大型语言模型(LLMs)推理能力方面的显著影响。然而,由于这些模型主要依赖内部知识,它们在处理开放式任务时可能会遇到困难,尤其是在涉及知识密集型问题、本地数据库中的私有信息以及时效性问题时。这种依赖可能导致不准确性和幻觉现象。因此,使LLMs在推理过程中能够访问外部信息以实现更审慎的推理是至关重要的。
2025-04-01 13:46:13
627
原创 美国人形机器人独角兽Agility Robotics,又要融资28亿元!软银参投
即便机器人造型、能力看起来平平无奇,不如近来扎堆炫技的人形机器人那么耀眼,所聚焦的场景也一直都是仓储物流领域,但是从Agility的商业化落地情况来看,这家公司可以说是领先了特斯拉、FigureAI、1X等行业热门玩家。宣布,人形机器人Digit正在他们旗下的Spanx工厂进行试点测试,Digit在仓库中执行物流任务,包括从AMR上移动货箱并将其放置在传送带上。其中,亚马逊的参投也意味着Digit机器人进入其仓储生态,Digit不久后也进入亚马逊从事筛选、搬运物料箱至流水运输线的工作。
2025-04-01 13:43:18
240
原创 Windsurf使用技巧分享 最近使用了差不多半个月的Windsurf,使用下来的感觉就是这玩意血强,不比cursor差。
最近使用了差不多半个月的Windsurf,使用下来的感觉就是这玩意血强,不比cursor差。最后想说的是,作为程序员,一定要跟上当前AI的时代,既不要听信什么AI能取代程序员,也不要排斥使用AI工具,因此对于AI要保持一个客观的态度,多使用一段时间就能差不多感知到模型能力的边界,自然就能很好的利用好它来提升自己工作的效率。如果你不知道怎么设计更好的代码架构时,你也可以直接通过对话让其给你建议,这不仅是对于使用Windsurf的建议,也是现在有AI辅助时代的程序员新的开发思路,AI就是跟你一起思考的小黄鸭。
2025-04-01 11:34:42
548
原创 不仅 PUA 员工,连 AI 都不放过,令人发指!哈哈哈,让我先笑一会儿
面对 AI 这种 “黑箱”,我们本能地会把它想象成人类,试图用对待人类的方式来对待它,用情感、激励、威胁等等手段,来 “驯服” 它。更有甚者,除了 “小费” 这种正面激励,还有人尝试用负面激励,比如威胁 AI,或者把它放在一个 “低性能会导致他人受苦” 的位置。也许 AI 能 “理解” 这种隐含的社交含义,把它当成一种 “礼貌” 的信号,从而更愿意给出 “好” 的回答。但实验结果让人有点失望。最近几年,有人开始研究“情感提示词”,就是想看看,给 AI 加点“感情戏”,能不能让它表现更好。
2025-04-01 11:19:49
509
原创 激光雷达龙头自动驾驶机器人“双擎引航”布局解读
硅光电倍增管(SiPM)正逐步取代雪崩光电二极管(APD),实现高灵敏度,从而增加探测距离。相比于SiPM 方案,SPAD 阵列方案通过从模拟信号到数字信号的转变可使整机系统的体积进一步下降,得益于数字信号输出和CMOS工艺兼容性。根据YOLE测算,未来10年内,预计SPAD及 SiPM份额将呈现提升趋势。
2025-04-01 11:11:21
671
原创 机器人导航VLN,具身智能的半壁江山 视觉语言导航VLN都有哪些主流方法论?
Conner,专注于机器人导航领域,港三博士在读。拥有丰富的机器人导航实战经验和研究背景,曾在顶级会议CoRL和Neurips发表研究。
2025-04-01 11:07:59
759
原创 擎朗智能正式发布首款人形具身服务机器人“XMAN-R1”
擎朗XMAN系列将与擎朗现有专用具身服务机器人实现数据共享与任务协同,无缝融入擎朗商业生态,完成服务场景的更多闭环任务。通过不断的复制“岗位化”工作模式过程,擎朗人形具身服务机器人将不断学习和拓展多样化工作能力,持续增强基础动作模型能力,从而实现更广泛的落地场景应用。XMAN-R1目前已完成服务场景内“点单-配餐-送餐-收餐”等长任务闭环,未来将去向更多场景探索。XMAN-R1 模拟服务人员动作逻辑与姿态,从双手递物到移动控制,融入场景需求,贴合岗位特征,与擎朗配送、清洁机器人分工协作。
2025-03-31 15:13:14
216
原创 关于DeepSeek R1的四个常见误区
也就是说,r1 的训练,是基于一个 sft model 进行的(1000 条冷启动数据训练)。卡多的人则可以搞排列组合,是否加 kl loss,是否直接丢弃超长的 response,是否应该给损失函数加熵,是否应该动态调 temperature,是否对 prompt 引入课程学习等等 —— 消融实验会证明一切?模型的 ACC:不仅是整体的 ACC,也要有各种设定下的 ACC,比如单条 prompt 下的 ACC,出现反思 pattern 时的 ACC,高于平均 response_len 时的 ACC 等。
2025-03-31 15:11:56
514
原创 如何做审稿意见的辩驳(rebuttal)
另外,你的文章发表后,这个审稿人无意中看到了你的名字,然后联想到你的rebuttal的表现,就会形成好的或坏的印象,取决于你当时的表现。如果你发现审稿人提了一个严重的问题,但是说得不具体、很笼统,这时候你要抓住这个主要问题,其他的问题先别回复,问审稿人:“你说的这个问题很严重,但是我们觉得里面存在误解,你能说得更具体一些吗?这个问题很重要,非常期待您的prompt回复。比如,“这个工作刚出来不久,我们也是最近刚发现的,您没看到正常”,“我们当时看到这个现象也很意外,但是仔细研究后发现是可以理解的”,等等。
2025-03-30 23:38:31
604
原创 聊聊AutoDev,一个可以充当MCP服务的AI辅助研发插件
但实际上,当前主流 AI 编程工具确实主要聚焦于 IDE 内部的代码补全与建议功能,其核心能力基于当前编辑上下文进行代码生成,无法直接操作构建工具(如 Maven/Gradle)、测试框架(如 JUnit)或部署系统等外部工具链。当我们想让 AI 辅助开发的时候,不仅仅是想要让它写代码,而是能像真人一样自如地“使用各种工具”,比如 AI 生成代码后,自动调用 Git 提交、触发 Jenkins 构建,并通过 Docker 部署到测试环境,等等。2025年03月29日 21:30。
2025-03-30 01:38:05
300
原创 心法利器[131] | 盘点踩过大模型多轮对话的坑
举一个例子,多轮对话往往需要应对很多不同的问题,每个迭代周期增加几个,从无到有逐步完善,如果整个系统内只有一个大模型,随着功能变多,要不就是prompt越来越长,要不就是不断微调,无论是前者还是后者,都会对原有功能造成影响,甚至很难维持多个功能的正常运行,因此,在设计过程,需要提前考虑这些问题,确保系统安稳迭代,避免形成算法特有的技术债。注意对大模型内容的质检,无论是用户的输入还是大模型的输出,都需要关注,监控好用户诱导大模型生成问题内容的行为,以及大模型生成内容的质量,确保大模型生成内容的安全性。
2025-03-30 01:36:23
480
原创 根据Claude 3.7 Sonnet模型使用情况,Anthropic发布最新“经济指数”
流行度指标直观反映了该类别在实际使用中的热门程度,而自动化/增强细分则有助于研究人员了解在不同任务中,用户是更倾向于利用Claude.ai实现自动化操作,还是通过与模型的交互来增强自身能力。而在生产、计算机和数学相关的职业任务中,增强和自动化的平衡接近50:50。值得注意的是,在此次研究中,并未发现以自动化为主导的职业类别,表明在当前阶段,人类在各个职业中仍发挥着不可替代的关键作用。在接下来的几个月里,随着模型能力的提升以及模型在经济领域的持续应用,Anthropic表示将继续跟踪这些指标并开发新的指标。
2025-03-30 01:31:38
540
原创 RLHF,一看就会,一问就废?
RLHF 的核心是第三阶段,即使用 PPO 算法微调语言模型。PPO 算法的核心思想是,构建一个用于完成目标任务的 ACtor/Policy 模型,以及一个用于估计 Actor 模型执行动作之后的状态价值(我就认为这是“动作价值”吧)的 Critic 模型。然后,让 Actor 疯狂采样、Critic 疯狂评价,在结合环境反馈的动作奖励数据,不断的优化 Actor 和 Critic 模型。这样,在 RLHF 中,我们需要一个 Actor 模型和一个 Critic 模型。
2025-03-30 01:24:44
932
原创 OpenAI重大发布!新GPT-4o图像生成!效果已达顶峰,可免费用
经过统一训练的系统不仅能精准捕捉文字内涵,还能灵活调用知识库和对话上下文,甚至能根据用户上传的图片进行二次创作。其次是持续创作能力,用户在对话中逐步优化设计时,系统能始终保持角色特征和场景风格的高度统一。更令人惊艳的是其细节掌控力,当其他系统处理5-8个对象就捉襟见肘时,GPT-4o能轻松驾驭20个以上元素的复杂构图。在安全防护方面,OpenAI祭出组合拳:所有生成图像都会嵌入C2PA元数据便于溯源,内部研发的图像识别工具可快速鉴别内容来源。OpenAI坦言这只是开始,随着模型迭代,图像生成将更精准智能。
2025-03-30 01:11:22
264
原创 深圳激光雷达巨头,造出了“机器人之眼”
在开源算法方面,AC Studio提供定位、SLAM、3D高斯溅射、目标检测与识别、语义分割、点云与视觉融合、高阶多模态感知等核心算法,让开发者跳过基础算法开发,直接开展场景化功能化的二次开发。传统的传感器堆叠造成的开发和量产难题仍待解决,此外,在AI驱动成为主流的时代,大量机器人开发者仍需要在基础软件的开发中“重复造轮子”,对开发周期带来了挑战。AC Studio一站式工具套件,提供包括驱动程序、节点数据采集、数据标定、数据融合、交叉编译在内的开源SDK。RoboSense速腾聚创。
2025-03-30 01:04:23
403
原创 软硬件全栈自研率超高,魔法原子让人形机器人从“练兵场”走向通用
对魔法原子来说,自研的硬件性能突破、垂直场景的数据积累、软硬一体的系统耦合,三者相互叠加,形成加速通用化的飞轮效应,进一步构建起生态壁垒,也让机器人有望渗透至更广泛的场景。当行业逐渐迈向规模商业化与量产,这种长期主义的自研积累,会让技术优势如“滚雪球”效应一样放大,加快人形机器人的应用,而应用又会反过来反哺人形机器人,助力人形机器人真正从专用设备变成通用的“硅基生命”。
2025-03-30 01:02:57
715
原创 批判性视角看待 R1 训练(基础模型和强化学习)中的坑
我们通过分析其两个核心组成部分:基础模型和强化学习,来批判性地检验类似 R1-Zero的训练方法。我们研究了包括 DeepSeek-V3-Base 在内的各种基础模型,以了解预训练特征如何影响强化学习的性能。我们的分析表明,DeepSeek-V3-Base 已经表现出“顿悟时刻”,而 Qwen2.5 基础模型即使没有提示词模板也表现出强大的推理能力,这表明可能存在预训练偏差。此外,我们发现 GRPO 中存在优化偏差,这会在训练期间人为地增加响应长度(特别是对于不正确的输出)。
2025-03-30 00:59:42
881
原创 OpenManus 任务拆分和动态规划实现机制
OpenManus 采用多层架构设计实现任务拆分和动态规划,主要包括以下核心组件:工厂模式创建流程实例:管理任务规划和执行PlanningTool:提供计划的创建、更新、执行等功能Manus:执行具体任务的代理整体工作流程:使用PlanningFlow 进行任务规划和拆解通过 LLM 动态生成执行计划使用 Manus代理执行具体任务支持任务状态追踪和动态调整# 返回: None, None (所有步骤已完成)[System] 您是任务规划助手。
2025-03-30 00:55:03
803
原创 R1-Zero(GRPO)的复现实验记录,踩坑问题(小模型)
format仍然出现问题,检查输出,发现Instruct模型可能是由于对齐的原因,喜欢将之间加一个\n,导致奖励获取失败。之前我们提到过,使用的是GRPO的reward—normalization,因此, 因此,return的平均也是0左右。先调取一下模型训练过程中的response,其中部分是没有think和answer的,但也有部分是拥有和的过程,(三)Base model (重复,一味的追求长度的输出?Basemodel没有经过之前的对齐操作,所以正常的format就可以,加上\n的反而不正常。
2025-03-29 15:00:24
818
原创 微软AI战略大调整:800亿砸数据中心,剑指行业领导地位!
一个不到200人的小团队,愣是把模型搞成了应用商店的No.1,这效率和成果让微软这位大佬都忍不住竖大拇指。他直言,DeepSeek的成功是微软AI工作的新标杆,尤其是人家不仅停在研究阶段,还直接把产品推向市场,成了爆款。这话一出,等于给微软内部敲了个警钟:组织效率得提速,内部协作的“边界”得打破。从对DeepSeek的“膜拜”,到Muse的内部突围,再到800亿的数据中心豪赌,微软这波调整摆明了不满足于当OpenAI的“幕后金主”。”这波操作,摆明了是要减少对外部技术的依赖,打造微软自己的AI“杀手锏”。
2025-03-29 14:53:50
327
原创 今天的 AI 创业,正在重复《苦涩的教训》
从表面上看,YC 似乎犯了个大错。他们大部分的投资都集中在一个即将衰退的领域。但老实说,我对风险投资的理解还不够深入,不能完全确定自己的判断。我只是想说,我有些困惑,欢迎大家给我一些意见。YC 说自己基本上是无偏见(non-opinionated)的,不带有过多主观判断,他们投资的是最聪明的人,期望这些聪明人找到最好的创意。这策略没错,毕竟很多创始人在预测未来细节上肯定比 14 个合伙人更行。YC 项目中的一个重要环节是每周设定目标。大家在大团队中合作,很有动力。
2025-03-29 14:37:16
979
原创 阿里开源Qwen2.5-Omni-7B:首个端到端全模态大模型、看听说写打通
全能创新架构:提出了一种全新的Thinker-Talker架构,这是一种端到端的多模态模型,旨在支持文本/图像/音频/视频的跨模态理解,同时以流式方式生成文本和自然语音响应。所以Qwen2.5-Omni得以在一系列同等规模的单模态模型权威基准测试中,拿下最强全模态性能,在语音理解、图片理解、视频理解、语音生成等领域的测评分数,均领先于专门的音频(Audio)或视觉语言(VL)模型。Qwen2.5-Omni-7B的特点在于,它原生支持视频、图片、语音、文字等多模态输入,并能原生生成语音及文字等多模态输出。
2025-03-29 14:32:19
658
原创 OWL团队万字分享:复现Manus最好的团队,如何看待Agentic AI的落地现状?
我认为只有 multi-agent 系统才能实现组织层面的任务,multi-agent 系统无疑是未来的重要发展方向。既然大公司现在不太会去做,那对资源有限的团队来说,这就是一个很好的切入点。
2025-03-29 14:22:17
895
原创 MoE(混合专家模型)如何颠覆AI效率
随着国产算力与算法的深度协同(如华为昇腾与科大讯飞的合作),MoE正从“技术突破”走向“产业普及”。其开源生态(如DeepSeek、阿里QwQ-32B)进一步降低技术门槛,推动AI应用场景的爆发。可以预见,MoE将成为下一代大模型的“标配”,让AI在医疗、金融、教育等领域真正实现“专业的人做专业的事”。今天,我们就来深入解析这一技术,看看它如何让AI“既聪明又省电”。它通过将复杂任务拆解为多个子任务,并分配给不同的“专家”处理,再整合结果。:想象一个酒店后厨,有川菜、粤菜、西餐等不同菜系的厨师(专家)。
2025-03-29 00:30:44
860
原创 Idea撞车何恺明大神新作!速度领先10倍,性能更强
具体来说,模型会首先预测第一个token的分布,根据这个分布采样出第一个token,然后基于这个token生成下一个token的分布,再采样出第二个token,依此类推,直到生成完整的图像。每个token由多个特征组成(例如16维),模型会先生成第一个特征的分布并采样出第一个特征,然后基于这个特征生成第二个特征的分布,再采样出第二个特征,依此类推,直到生成整个token。这篇论文展示了自回归模型在图像生成任务中的巨大潜力,尤其是在生成速度和生成质量之间的平衡上,ARINAR提供了一个非常有前景的解决方案。
2025-03-29 00:25:33
879
原创 一文读懂MCP与AI工具生态的未来,它会是AI智能体的「万能插头」吗?
像 Mintlify 的 mcpt、Smithery 和 OpenTools 这样的市场,正在让开发者更容易发现、分享和贡献新的 MCP 服务器 —— 就像 npm 彻底改变了 JavaScript 的包管理,或 RapidAPI 扩展了 API 的发现一样。很快,我们可能会看到专门的 MCP 客户端出现,用于以业务为中心的任务,例如客户支持、营销文案、设计和图像编辑,因为这些领域与 AI 在模式识别和创意任务方面的优势密切相关。在实践中,MCP 的应用主要集中在不需要显式认证的本地集成场景。
2025-03-29 00:23:11
740
原创 微软开源「商业海报&PPT」秒级创作神器,支持多语言&多风格,百图排版“媲美设计师”!
为了解决这两个挑战,作者做出了两项关键技术贡献:1)通过实施分层检索增强信息图生成方案,构建了可扩展的高质量业务内容数据集,即Infographics-650K,配备了超密集的布局和提示;上表展示了该方法与多个SOTA方法(DALL-E3、SD3 Large、FLUX、Glyph-SDXL-v2)在海报与PPT生成任务上面的客观指标评估结果:通过观察与分析,我们可以发现:该方法在不同复杂度的生成任务上面都获得最高的得分,与第二名之间拉开了较大的差异。上图展示了该方法与之前的一些SOTA方法的上下文长度。
2025-03-29 00:20:22
760
原创 吴恩达和Perplexity创始人投资的Lamini: 如何用AI对模型“动手术”来减少幻觉?
原创 浅浅是Cloris X Partners 2025年03月28日 08:09 上海“全球资本&科技公司观察者”关于Lamini:Lamini是一家企业AI平台,由Sharon Zhou和Greg Diamos于2023年4月创立,旨在帮助企业开发、部署和控制定制的大型语言模型(LLM)。 Lamini已获得2500万美元的融资,投资者包括Amplify Partners、First Round Capital、吴恩达(Andrew Ng)、Andrej Karpathy和AMD Ventures。
2025-03-29 00:13:30
544
原创 DeepSeek-V3报告出炉:超越GPT-4.5,如何炼成的!震惊海内外!
当OpenAI还在为GPT-5遮遮掩掩时,中国团队用开源生态给出了另一种答案:这场AI革命,终究要回归到开发者的键盘之上。或许明天醒来,我们会发现某个初创团队用这个开源模型做出了颠覆性的AI产品,毕竟在算法民主化的时代,创新永远来自最意想不到的角落。更绝的是,当被问及"布须曼人喝牛奶吗"这类冷门问题时,答案从旧版的三段话扩展到包含文化背景、饮食结构的多维度分析。官方轻描淡写称其为"小版本迭代",但当第一批实测结果流出,所有人都意识到:大模型竞技场的游戏规则要变了。"的惯例,业内普遍预测:专攻复杂推理的。
2025-03-29 00:10:42
354
原创 DeepSeek12种顶级提问词框架
7.ROSES框架:让Deepseek的角色、目标、情境、解决方案及步骤更加明确。4.SPAR框架:让您清晰掌握当前情境、问题、行动及期望结果。8.SCOPE框架:助您洞察情境、问题、目标、步骤及成功评估。9.RTF框架:明确Deepseek角色、任务及答案获取方。3.TAG框架:助您明确任务、所需行动及最终目标。5.SAGE框架:明确现状、行动、与终极目标。6.APE框架:助您明确行动、目标与期望。1.CARE框架:助您在讨论中。明确上下文、行动、期望结果。,并通过示例进一步阐明。
2025-03-28 17:58:22
109
原创 就在刚刚,manus宣布收费
升级计划的选项,旨在让用户获取更多积分。免费用户依然是1000积分。用户可以根据需求选择不同的计划进行升级,以获取更多的积分和功能。3、积分按以下顺序消耗:月度积分、附加积分和免费积分。月度积分不会结转到下一个周期。内测许久的Manus,就在刚刚,宣布收费了。Manus Pro($199/月)- 每月积分:19,900 积分。1、月度积分通过订阅获得,并在。- 每月积分:3,900 积分。- 同时运行任务:最多 2 个。- 同时运行任务:最多 5 个。- 扩展的上下文长度。- 扩展的上下文长度。
2025-03-28 17:57:16
114
11个代码生成相关的论文,20241022更新版本-持续更新,包含代码搜索、代码搜索、代码模型survey、代码评论评估、代码评
2024-10-22
10篇代码生成的论文,包括代码评估、代码搜索、代码生成、survey、代码或bug分类
2024-10-21
Multimodal Representation for Neural Code Search
2024-10-21
[MDPI水刊Algorithm非SCI]Program Code Generation with Generative AIs
2024-10-21
avx2_tensorflow-1.9.0-cp36-cp36m-win_amd64.zip
2020-04-23
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人