ytsoft351088603-优快云博客

原创只会害羞转头的AI宠物卖70美元？看完演示，我居然心动了

该公司表示，这款产品是在公司内部的「创客马拉松」中构思出来的，一支由工程师和设计师组成的团队提议创造一个具有人类婴儿特征的机器人「yokai」。它结合风扇和特殊的「Fu-ing 系统」算法，以随机的强度和间隔吹气，以此降低食物的温度。它就类似于装在可爱硅胶外壳中的小电扇，具有多种吹风模式，包括「我来搞定」模式（全力吹气）和「不会洒出」模式（温和吹气），以适应不同的使用场景。机器人的名字也有来头，「fu fu」模仿吹气的声音，而「neko-jita」在日语中译为「猫舌头」，指的是那些对热食不耐受的人。

2025-01-08 16:46:31 741

原创 AAAI 2025 | 大模型推理加速新范式：加速比高达3.51倍、成本降至1/3

此外，为了让大模型能验证更多的 token，本文精心设计了一个 decoding tree，有效提升了 draft model 的效率，从而提升了验证效率。为此，翼支付提出了 Falcon，一个增强的半自回归（SAR）投机解码框架，旨在增强 draft model 的并行性和输出质量，从而提升 LLMs 的推理效率。相比之下，Falcon 采用了一种 causal 因果掩码 (如图 3 所示)，允许模型访问同一 k*k 的 block 内的 token 以及相应的之前的连续 token。

2025-01-08 16:45:30 779

原创 o1也会「想太多」？腾讯AI Lab与上海交大揭秘o1模型过度思考问题

从这一角度来看，如果模型在推理过程中使用了多种不同的思路来解决问题，那么这种多样化的探索不仅有助于加深模型对问题的理解，还体现了模型的自主探索能力，不应简单地视为 “过度思考”。但随着推理位置的后移，解答中带来新推理思路的可能性逐渐降低。有意思是，文中提出的方法在最简单的难度 1 的问题上，仅使用了相比于原来 63.6% 的 token 数目便达到了 100% 的正确率，而且在难题（难度 4 和 5）上，文中的方法能够在提升性能的同时大幅度减少输出的冗余，这展示了提出的方法在减缓过度思考上的有效性。

2025-01-08 16:44:18 1025

原创 Just keep scaling！思维链作者Jason Wei 40分钟讲座剖析LLM扩展范式

Minerva 的研究团队并没有从头设计一个新的模型，而是基于现有的语言模型，通过在大量数学相关数据（如 arXiv 上的论文）上继续训练，显著提升了模型在数学任务上的表现。因此，理想情况下，未来的方向是：你可以提出一个非常具有挑战性的问题（比如撰写一篇关于如何制造 AI 的研究论文），然后语言模型可以在推理时花费大量的计算资源来尝试解决这个问题。也许你提出问题后，成千上万的 GPU 运行一个月，最终它会返回一个完整的答案，比如这是关于如何制造 AI 的一整套研究成果。今天的主题是大型语言模型的扩展范式。

2025-01-06 11:25:21 1067

原创多智能体强化学习算法评估Hard模式来了！浙大、南栖仙策联手推出

此外，环境还对使用 MARL 算法训练的模型进行了黑盒评估，强调在面对单一、脆弱的对手策略时，MARL 策略的可转移性有限。此外，为了进一步扩大对手的策略丰富度，环境还根据智能体的观测、状态和可用行为等的封装，为对手提供了类似的对称接口以促进 MARL 自博弈模式的发展。此外，智能体还可以通过 SMAC-HARD 环境完成黑盒测试来评估 MARL 算法的策略覆盖性和迁移能力，即智能体在训练过程中仅通过与默认对手策略或自博弈模型进行推演，但在测试过程中与环境提供的脚本进行交互。

2025-01-06 11:24:02 1054

原创轻松进行动态图异常检测，南洋理工提出GeneralDyG

相应地，边层则基于边的邻接关系和节点的状态更新边的特征表示。其次，为解决动态特征捕捉的难题，我们结合全局时间动态和局部结构变化，深入建模动态图中的多尺度动态模式。然而，与静态图相比，动态图因节点和边的动态演变特性，给数据分析带来了更大的挑战，尤其是在异常检测方面。总的来说，我们提出了一种通用的动态图上异常检测方法 GeneralDyg，解决数据分布多样、动态特征捕获难和计算成本高三大核心问题，GeneralDyG 展现了卓越的通用性和鲁棒性，为动态图异常检测提供了一种高效且通用的解决方案。

2025-01-05 11:42:25 806

原创 Meta探索大模型记忆层，扩展至1280亿个参数，优于MoE

最后，本文在 8B 基础模型和 4096^2 个记忆值的基础上（64B 记忆参数）扩展了 Memory+ 模型，表 2 报告了结果，发现记忆增强模型的表现明显优于密集基线。在 6400 万个键（1280 亿个记忆参数）下，1.3B Memory 模型的性能接近 Llama2 7B 模型，后者使用了 10 倍以上的 FLOPs（见表 2）。该研究将键-值对的数量扩展到数百万。在下游任务中，通过改进的记忆层增强的语言模型的性能优于计算预算两倍以上的密集模型，以及在计算和参数相当的专家混合（MoE）模型。

2025-01-05 11:41:26 993

原创全新模型RoboVLMs解锁VLA无限可能，真实机器人实验交出满分答卷

虽然 VLAs 在各种任务和场景中表现抢眼，但大家在模型设计上却走了很多不同的路，比如用什么架构、怎么选数据、怎么调训练策略等等，这导致领域内对 “怎么做好一个 VLA” 还没有统一的答案。比如，在果蔬分类任务中，它不仅能精准识别，还能应对干扰环境，稳稳完成分类操作。这样的设计在 CALVIN 中实现了出色的泛化能力，在 zero-shot 设置下仅有轻微的性能下降，而其他设计形式的模型则出现了显著掉分。简单说，通过实验，我们发现设计合理的 VLA 不仅能轻松搞定常见的操作任务，还能在陌生场景中稳稳发挥。

2025-01-02 20:20:07 1043

原创多模态模型已落地多领域，OpenBayes贝式计算获评「大模型最具潜力创业企业 TOP 10」

作为专业的人工智能媒体与产业服务平台，人工智能站于 2017 年发布了 AI 榜单「Synced Machine Intelligence Awards」，在随后的时间里，伴随 AI 的跨越式发展，人工智能站的年度评选也逐渐成为了产业风向标之一，其中，人工智能站 2024 年度评选中的「大模型最具潜力创业企业 TOP 10」，模型性能方面，得益于 OpenBayes贝式计算近年来在编译器技术领域的积累，贝式小算可天然运行在 Nvidia、ARM 以及多种国产芯片上，同时拥有较高的计算精度和计算效率。

2025-01-02 20:19:10 498

原创迈向Z级计算：Cloud4Science范式加速科学发现进程

微软亚洲研究院首席研究员曹婷表示，「这使得科研人员能够在单一平台上使用多种算法和应用，同时，云平台和人工智能的强大算力也将大幅提升科学计算效率，为未来的科学研究与计算应用开辟新的可能性。通过融合云计算的可扩展性、AI 的智能决策能力以及高性能计算技术，Cloud4Science 将在未来迈向 Z 级计算的过程中，实现科学计算在极限求解与智能推理两大方向的双向突破，赋予科学智能更强的灵活性、更高的效率与更广泛的可扩展性，为科学研究带来新的创新动力与发展空间。

2025-01-01 14:53:05 1076

原创意念操控电脑，如手掌般精准！MIT脑机接口新技术登Nature子刊

研究团队在三名截瘫患者身上进行了实验验证：54 岁的 JJ（C5-C6），32 岁的 EGS（C5-C6）和 62 岁的 NS（C3-C4）。这种约束不仅降低了参数数量，提高了模型的泛化能力，更重要的是使得提取的特征具有跨电极、跨脑区的一致性。然而，当前的植入式脑机接口在精准度和可靠性方面还远未达到健全人手部操控的水平。总之，FENet 的突破不仅开创了脑机接口优化的新范式，更让「用思维控制设备」的愿景更近一步。这听起来像科幻片中的场景，但在加州理工学院（MIT）的最新研究中，这样的未来正在成为现实。

2025-01-01 14:52:16 1337

原创理解生成协同促进？华为诺亚提出ILLUME，15M数据实现多模态理解生成一体化

1、ILLUME 在保持整体架构可扩展与可泛化的前提下，通过合理的视觉词表、训练策略与数据配比策略，成功以仅约 15M 的图文对数据用于图文对齐，实现了在视觉理解（包括自然图像和文档图表）、生成、编辑等多元任务上的出色表现，总体效果优于现有统一模型例如 Chameleon, Show-O 和 Janus，与专用单任务模型相媲美。多模态理解与生成一体化模型，致力于将视觉理解与生成能力融入同一框架，不仅推动了任务协同与泛化能力的突破，更重要的是，它代表着对类人智能（AGI）的一种深层探索。

2024-12-31 20:10:00 1087

原创 Anthropic总结智能体年度经验：最成功的≠最复杂的

但要注意的是，它们会在代码中增加额外的抽象层，这不仅让底层的运行逻辑变得不够透明，也增加了调试的难度。而且，开发者可能会在一些简单的场景中，不自觉地引入过度复杂的解决方案。但他们发现，那些表现最出色的 AI 智能体，并非建立在庞大复杂的框架或专业库之上，而是采用了简单、可组合的模式。从简单的提示开始，用全面的评估优化它们，同时只有当更简单的解决方案无法实现时才添加多步骤智能体系统。上个月，智谱发布 AutoGLM 的发布会上，智能体好像突破了次元壁，一句指令，就拿着手机在现场发了一个总计两万块钱的红包。

2024-12-31 20:09:01 668

原创 o3智商高达157？每13333人中才有一个这么高，网友：编码分数无意义

疑似原作者表示，他根据 Codeforces 编码评级来粗略地估计 IQ，并假设报名时竞争程序员排名前 15％，最后得出 GPT-4o、o1 preview、o1、o1 pro、o3 mini 和 o3 的 IQ 以及在人类中的排名。有人找到了「Tracking AI」中 o1 在挪威门萨智商测试（Mensa Norway）IQ 测试中的结果（为 133，与上面表格中估计的 135 相差不大），一定程度上验证了 o3 估计智商的可靠性。从韦氏智商测试来看，如果 o3 的 IQ 真这么高，则称得上非常优秀。

2024-12-30 09:38:54 937

原创具身智能到底怎么用？美团给出了精彩回答

他们在传统的配送流程基础上，将AI＋机器人的全流程无人配送系统创新为以下阶段：用户APP下单——人形机器人前往商家——人形机器人打包物品并与无人机交接——无人机配送包裹——无人机将包裹交给人形机器人——人形机器人将包裹送至客户手上——订单完成。研究院依托美团生活服务丰富场景与数据积累，结合深圳及大湾区的科研优势，开展面向机器人共性关键技术的研发，旨在建设深圳市新型研发机构标杆，并在大湾区打造机器人技术“政产学研用”全方位结合的开放协同创新平台。在毛一年的主题分享中，谈到了美团无人机的发展现状。

2024-12-28 10:15:24 1121

原创火山引擎视觉大模型4K修复百部港片，面部肤质纹理等细节更清晰

修旧如旧、保存电影档案是修复的第一原则，第二原则是修复得更符合现代观众的观影习惯，比如把威亚去掉，色彩调得更亮，因为电影留存档案的目的还是要让后人看，如果有一种方式让电影活得更好，穿越之外还能再现，为什么不呢？其中10部是“人工+AI”精修，90部主要由AI修复，这些修复后的作品已上线抖音、抖音精选，搜索片名即可观看。拿到一部待修复的影片，双方首先会明确分工，人工修复效果更好的画质问题归修复师，重复性的、“耗人”的画质问题，由算法工程师利用视觉大模型技术，将算法识别出来的画面中划痕、脏点，一次性祛除。

2024-12-28 10:14:08 903

原创引入长思维链！微信基于阿里千问大模型搞出个翻译版o1

研究者将 DRT-o1-7B 和 DRT-o1- 14B 与之前的 Qwen2.5-7B-Instruct、Qwen2.5- 14B-Instruct、QwQ-32B-preview 和 Marco-o1- 7B 进行了比较。基于收集的长思考机器翻译样本，本文分别使用 Qwen2.5-7B-Instruct 和 Qwen2.5-14B-Instruct 作为主干模型，对 DRT-o1-7B 和 DRT-o1-14B 进行训练（SFT）。如果答案是否定的，则保留相应的句子，将其视为「适合长思考翻译」。

2024-12-26 17:24:07 1279

原创 4比特量化三倍加速不掉点！清华即插即用的SageAttention迎来升级

此外，SageAttention2 还提出一种可选的对矩阵 V 进行平滑处理的技术，可以进一步提高 PV 矩阵乘法的准确度。然而，这样做的缺点是：1）INT8 的矩阵乘法只达到了一半的 INT4 矩阵乘法的速度，2）使用 FP16 的乘法累加器的 FP16 的矩阵乘法的加速只在 RTX4090 和 RTX3090 显卡上有效。而 P 的范围是 0～1 之间，那么当 V 矩阵的列有较大的数值偏移时，PV 的 FP22 累加器的精度就越差，通过平滑 V 去除偏移后，就可以加强 PV 矩阵乘法的准确度。

2024-12-26 17:23:12 685

原创速度提升44%，节能153倍，清华使用内存计算硬件高效标记数据

基于欧姆定律和基尔霍夫当前定律，只需一次并行读取操作即可实现 VMM 原位计算的同时，忆阻器中离子的随机运动赋予了电导随机特性，读取或编程操作能有效地模拟随机数的生成。他们在基于忆阻器的随机 CIM 系统上实现了内存 DBAL，而与传统的基于互补金属氧化物半导体的硬件实现相比，全新的方案实现了 44% 的显着速度提升，并且可以节省 153 倍的能源。团队还分析了周期间变化对网络性能随时间推移的影响。团队的工作提出了一种使用基于忆阻器的系统实现的高效 DBAL 实现，并展示了贝叶斯方法的基础高效概率计算。

2024-12-26 17:21:35 766

原创超三万种材料，近百万真实材料合成表征信息，LLM精准构建材料知识图谱MKG，登NeurIPS 2024

为了解决这些问题，团队将大型语言模型引入知识图谱的构建流程，不仅可以通过自动化构建本体论，提取和分析巨量文献中的数据来构建初步的知识图谱，还可以通过持续学习来适应新的研究成果和理论发展，从而保持知识图谱的前沿性和准确性。通过这些技术的应用，MKG 的构建和维护成为可能，极大地促进了材料科学研究的深度和广度，为科研人员提供了一个强大的工具，帮助他们更快地发现和应用新材料，推动科技创新和工业应用。用图算法和神经网络来分析和预测材料之间的新关系，这包括增加新的实体和关系，更新图中的信息。

2024-12-25 14:09:03 813

原创空间蛋白质组学：构建复杂组织的尺度图谱

CyLinter 将四个文件作为每个组织标本的输入：拼接和配准的多路复用图像（TIFF/OME-TIF）、由分割算法生成的细胞识别掩码、显示分割细胞之间边界的二进制图像以及空间特征表，以逗号分隔值（CSV）格式表示，包括每个分割单元的位置和计算的信号强度。空间蛋白质组学的未来非常出色，而应用在其上的这些全新技术将会在人类对抗畸变肿瘤的路上留下一盏盏指引路线的明灯。更好的显微镜，更全面的数据库，更清晰的分析结果，这些技术改进引领我们在这条道路上走得更远，我们将会更加深入的了解到人体更深处的奥秘。

2024-12-25 14:07:25 897

原创参加完NeurIPS，纽约大学教授感受到了AI博士生的焦虑与挫败

他们中的一些人可能感到挫败，因为。他们仰慕我这一代人（虽然还相对年轻、资历较浅，但在这个领域可能算是资历较深的人），认为只要他们的博士学位与机器学习及邻近领域有一定关联，他们就能享有类似的职业前景 —— 成为大科技公司的高薪研究科学家，享有极大的研究自由。例如，在 Prescient Design 公司，我们一直在不断招聘博士级研究科学家，他们专门从事不确定性量化、因果机器学习、几何深度学习、计算机视觉等方面的研究，因为这些领域的研究和开发与我们的工作（即 lab-in-the-loop）直接相关。

2024-12-24 15:42:59 867

原创麦吉尔大学Ding Lab基于深度学习开发单细胞水平转座子位点表达定量模型，登Nature子刊

a 图显示 Leiden 聚类结果，b 图按细胞类型及转座子标志物着色，鉴定出了关键转座子标志物，例如在巨噬细胞中的 RMER16_Mm 和 RLTR44B，在星形胶质细胞中的 MamRep434 和 MER124，以及在少突胶质细胞中的 MURVY-LTR 和 MamRep1527。现有的方法未能实现精确的特定位点转座子定量，他们有些只量化转座子亚家族的表达量，有的仅仅将读段分配到对比算法提供的“最佳” 位置，因此在处理转座子区域中普遍存在的多重比对读段方面非常有限。

2024-12-24 15:41:45 916

原创人工智能学习框架入门教程

人工智能（AI）指的是使计算机能够执行通常需要人类智能才能完成的任务的技术。理解自然语言进行图像和视频分析做出推理和决策学习新知识并自动改进TensorFlow 是一个开源的深度学习框架，广泛应用于机器学习和深度学习项目中，支持 Python 和 C++ 等多种编程语言。TensorFlow 提供了许多工具和库，帮助开发者快速实现深度学习模型的设计、训练和部署。PyTorch 是一个由 Facebook 开发的开源深度学习框架，具有动态计算图的特点，使得模型训练更加灵活。

2024-12-23 18:54:54 965

原创计算机视觉算法入门教程

在本教程中，我们介绍了计算机视觉的一些基础知识和常用的图像处理技术，并通过 Python 和 OpenCV 实现了多个经典的计算机视觉任务，包括图像处理、目标检测和图像分割。通过这些基础操作，你可以开始构建自己的计算机视觉应用。计算机视觉是一个快速发展的领域，深度学习技术的引入让许多视觉任务得到了显著的提升。随着对深度学习框架（如 TensorFlow、PyTorch）的进一步学习，你可以实现更为复杂的计算机视觉任务，如图像分类、目标检测、语义分割等。访问更多内容来源。

2024-12-23 18:53:23 882

原创机器学习实战入门教程

通过本教程，你已经了解了机器学习的基本概念和常见算法，并通过实际案例使用 Scikit-learn 实现了几个基础模型的训练与评估。

2024-12-23 18:52:08 948

原创重塑跨智能体灵巧手抓取，NUS邵林团队提出全新交互式表征，斩获CoRL Workshop最佳机器人论文奖

该方法通过创新性地建模机器人手与物体在抓取姿态下的交互关系，成功实现了对多种机器人手型与物体几何形状的高度泛化能力，为灵巧抓取技术的未来开辟了全新的方向。该方法捕捉机器手运动学与物体几何的交互关系，弥补机器人中心方法的泛化不足，同时提升物体中心方法的推理效率，实现跨机器人手型与物体形状的泛化，为灵巧抓取提供高效且鲁棒的解决方案。这一看似遥不可及的梦想，正在逐步成为现实。给定物体点云和机器人手的 URDF 文件，模型的目标是生成灵巧且多样化的抓取姿态，能够在不同的物体和机器人手型之间实现广泛的泛化。

2024-12-23 13:20:31 1156

原创人会逆向思维，LLM也可以？DeepMind研究表明还能提升推理能力

他们也选择了多种任务进行评估，包括常识推理（StrategyQA、CommonsenseQA、ARCchallenge），数学推理（MATH、GSM8K），表格数据推理（TabMWP）、自然语言推理（ANLI），逻辑推理（Date Understanding）。其中正向和逆向推理都会使用思维链。此外，相比于符号知识蒸馏（SKD）和逐步蒸馏（Distill Step-by-Step）—— 依赖于使用来自教师模型的正确推理链来执行监督式微调，RevThink 有 6.44% 至 7.15% 的显著提升。

2024-12-23 13:19:08 1764

原创如何搭建影视站,自动采集最新片源并创建会员收费机制【手把手教程】

只要有片源接口那么就可以用定时任务实时更新。然后后台配置一下定时任务每日更新最新片源。之前一直想看美剧下了很多app。环境是php 7+ MySQL5+我搭建了demo大家也可以测试下。直接运行install.php。然后定时任务里采集当天就可以了。羊毛战纪第二季就是叫末日地堡了。更多内容点击访问我的技术博客。这个就不说了回车就可以饿了。然后配置一下会员和收费机制。在后台点采集-自定义接口。试了很多类似的开源程序。测试下最新的片是否齐全。后来想还是自己搭一个。2、git直接拉代码。按提示一路回车就可以。

2024-12-10 20:17:23 411

原创实现solidworks和CAD图纸Web在线预览功能

在之前的一个项目中需要实现solidworks工程图和模型的网页在线浏览。然后客户的要求既然实现了图纸的在线预览那office文档也一起做掉。不同用户登录可以协同编辑同一个文件不会冲突编辑内容实时回显。我找了个低配的阿里云服务器部署了一下给大家测试效果。我测试了很多开源接口最后选型了onlyoffice。支持所有的solidworks文件和cad文件。基本思路是再上传文件后立刻调用传化为网页格式。在文档上传的时候调用组件转化为web格式。测试了很多方式最后实现了比较完美的模式。

2024-12-10 20:15:15 479

2404_89475218的博客