- 博客(29)
- 收藏
- 关注
原创 PlantCLEF 2024 植物识别
该任务的主要困难在于测试数据(植被地块的高分辨率多标签图像)和训练数据(单个植物的单标签图像)之间的转换。它包含约 140 万张图像,其中还包含一些从 GBIF 平台聚合的带有可信标签的图像,以补充较少图示的物种。但是,请注意,PlantCLEF2022&23 期间使用的物种 ID 可能在此期间发生变化,因为分类学是一个活跃的研究领域,并且为。允许使用额外的数据或元数据,但前提是每次使用外部数据运行时,您都提交仅包含所提供数据的等效运行,以便进行更准确的比较。提供预先训练的模型。的植物识别平台非常活跃。
2024-12-03 17:59:01
1197
原创 小苏打或可防治免疫系统疾病
研究员发现当人类肠胃接触到碳酸类溶液时,会令器官和体液的免疫球蛋白浓度上升,比较有名的免疫细胞有巨噬细胞、T细胞、B细胞等等,尤其是一类被称为M1和M2的免疫细胞数量特别多。该校医学院生理学系保罗实验室的科研团队在过往的临床实验中指出,小苏打内含的抗酸性物质,可以有效平衡胃酸分泌,有效预防胃酸倒流引起的胃炎、咽喉炎,甚至是食道癌。所谓间皮细胞实则上位于人体的空腔,以细胞与细胞之间相互连接的方式形成一道紧密的膜质层,这种薄膜能够覆盖人体各个器官的表面,可以避免因剧烈运动令器官和组织相互摩擦而受伤。
2024-12-03 16:45:14
571
原创 什么是softmax 上下溢出问题?softmax的意义以及和logistic函数区别
softmax 上下溢出问题?在计算机科学中,溢出(overflow)和下溢出(underflow)是指数据超出其存储类型所能表示的范围的情况。上溢出(Overflow)上溢出发生在数值超过了变量或数据类型的上限。例如,在一个8位无符号整数(范围是0到255)中,如果你尝试存储值256,就会发生上溢出。因为256超出了这个数据类型可以表示的最大值,结果可能会被截断为0(取决于具体的处理方式),这通常会导致错误的结果。2. 下溢出(Underflow)
2024-12-03 14:55:35
1196
原创 详细说DETR,基于transformer的目标检测相关原理,GIoU
详细说DETR,基于transformer的目标检测相关原理GPT-4oPoeDETR 是 Facebook AI Research (FAIR) 提出的一个端到端目标检测框架,它首次将 Transformer 架构 引入目标检测任务,为目标检测领域提供了一种新的范式。与传统目标检测方法(如 Faster R-CNN、YOLO 等)相比,DETR 抛弃了候选框生成、非极大值抑制(NMS)等复杂的后处理步骤,直接通过 Transformer 模型预测最终的目标边界框和类别。以下是 DETR 的详细原理、架构和
2024-12-03 14:37:17
1571
原创 通义灵码SWE-GPT:从静态代码建模迈向软件开发过程长链推理
📔 随着Devin的发布,国内外AI程序员迅速发展,引起了产业界和学术界的广泛关注。AI程序员通常利用LLM-based agent实现,称之为软件工程智能体。
2024-12-03 13:50:55
922
原创 一篇78页大模型GUI Agents全面综述~
一个✓符号表示出版物明确涉及给定领域,而一个⃝符号表示出版物不专注于该领域但提供了相关见解。同时涵盖GUI自动化和LLM智能体的出版物被突出显示以强调。GUI Agents架构与设计原则详细介绍了大型语言模型(LLM)驱动的图形用户界面(GUI)智能体的基础架构和设计原则。架构和工作流程概述:LLM-Brained GUI智能体的架构包括多个组件,它们共同工作以解释用户指令并执行基于自然语言的任务。工作流程从用户请求开始,包括环境感知、提示工程、模型推理、动作执行和记忆利用,直至任务完成。
2024-12-03 12:17:59
983
原创 具身智能基础——模仿学习基础
逆强化学习的核心在于,通过观察专家的行为轨迹来推断出一个隐含的奖励函数,解释专家为何会在不同状态下选择特定动作。我们假设专家的每一个决策都是为了最大化某种未知的奖励。逆强化学习通过构建和优化这个奖励函数,使得我们推导出的策略能够逼近专家的行为模式。首先,我们需要记录专家的轨迹,这是专家在完成任务时所经过的一系列状态和对应的动作序列。逆强化学习的目标是找到一个奖励函数,使得在这个函数下,专家的轨迹能获得更高的累积奖励。
2024-12-03 12:04:09
969
原创 QwQ-32B:让AI在开源界内卷到底!
它不仅是阿里巴巴Qwen团队最新发布的开源模型,更是AI推理界的一名“哲学学生”——深思熟虑、不耻下问,还能给你一份惊艳的数学答卷。问题:在方程 $1 + 2 * 3 + 4 * 5 + 6 * 7 + 8 * 9 = 479$ 中,添加一对括号使等式成立。无论你是技术大牛、数学爱好者,还是对AI未来充满好奇的“哲学学生”,QwQ都为你打开了一扇通往智能边界的新大门。QwQ(发音/kwju:/,像“quill”)名字萌萌哒,但它可不是来“撒娇”的。逐步拆解问题,计算当前结果,与目标值比较,发现差距。
2024-12-02 21:54:58
1408
原创 详解llama3和llama3.1的区别和相关创新
LLaMa3.1在多个方面相较于LLaMa3进行了显著改进,包括参数规模、上下文处理能力、多语言支持以及性能优化等。这些创新使得LLaMa3.1在自然语言处理领域具有更强的竞争力,并为未来的AI应用奠定了基础。选择使用哪一版本应根据具体需求而定,如果需要处理长文本或多语言任务,LLaMa3.1无疑是更优选择。
2024-12-02 21:37:20
1611
原创 LLaMa3-72b和Qwen2.5-70b的主要区别和优劣在哪
参数量:72亿参数。架构:LLaMa3系列模型基于Transformer架构,专注于提供高效的文本生成和理解能力。应用:广泛应用于自然语言处理任务,如文本生成、对话系统、问答等。总体而言,尽管LLaMa3-72B在某些生成任务上表现良好,但Qwen2.5-70B在多个关键领域(如数学推理、编程能力和长文本处理)中展现出了更强的优势。选择使用哪种模型应依据具体应用需求而定。如果需要处理复杂任务或多样化输入,Qwen2.5可能是更好的选择;而对于一般文本生成任务,LLaMa3也依然是一款强大的模型。
2024-12-02 21:32:38
2626
原创 大厂纷纷入局,具身智能赛道未来可期
在机床加工过程中,能够保持稳定的性能,减少误差,控制精度可达0.01mm,精准实现工件的自动抓取、上料、下料等过程的自动化操作。埃夫特基于其自研控制系统搭建,底层架构的重构,意味着机器人能够更好实现期望的运动轨迹规划动作,并在焊接、喷涂、抛光、涂胶、装配、抓取等工业场景和其他更高级的服务行业场景中,进一步融合环境感知、目标识别、决策制定等复杂功能,为机器人的自主导航、精确控制和复杂任务执行提供了强有力的支持,有望助力人形机器人、服务机器人、工业机器人更好实现复杂任务。
2024-12-02 21:25:23
2512
原创 RAG技术深度优化:三大策略帮你打造智能回答新高度
提高RAG生成答案的准确性需要综合考虑知识内容的优化、生成能力的提升和检索策略的改进。从知识库的结构化处理到生成与检索能力的细化优化,RAG技术的未来充满了无限可能。通过合理的技术手段,我们可以在实际应用中更好地利用RAG,为用户提供更加精准和可靠的智能问答服务。
2024-12-02 21:16:49
955
原创 让AI眼里有活主动干!清华&面壁等开源主动交互Agent新范式
同时,经过训练的模型也在误报率上有了明显的下降,尽管提供不必要的帮助的情况仍然存在。人类标注员在研究开发的标注平台上进行标注,对特定时间下,9个不同的大语言模型生成的多样化预测进行判断,并通过多数投票的方式决定某个回合用户是否具有需求,以及用户倾向于接受什么类型的任务。该研究除了提出以上开创性的主动Agent之外,还通过采集不同场景下的人类活动数据构建了一个环境模拟器,进而构建了数据集 ProactiveBench,通过训练模型获得了与人类高度一致的奖励模型,并比对了不同模型在数据集下的性能。
2024-12-02 21:13:43
1055
原创 超越GPT-4o!开源科研神器登场,4500万篇论文检索增强生成靠谱回答
例如:当被问及机器人学中的大型基础模型时,此响应引用了一篇具有3.07亿参数模型的论文,而截至2024年11月,机器人学中当前最大的基础模型(RT-2)具有550亿参数。团队表示,未来他们会纳入更多论文、升级检索增强算法,也会对各个领域的经典研究问题和论文进行深入整合,增强OpenScholar的专业程度。GPT-4o在90%以上的情况下都引用了不存在的论文,而OpenScholar的结果都是来自确定来源。例如,在描述特定方法时,它可能未能引用提出该方法的原始论文,而是引用了提及该方法的另一篇论文。
2024-12-02 21:13:10
934
原创 AI革命降速?专家称OpenAI新模型提升或微乎其微|黑智编译
今年6月,OpenAI的竞争对手Anthropic发布了Claude 3.5模型,Marcus在看到该模型在高级推理、编程和多语言数学等领域的边际显著提升后,认为它的表现“与其他许多模型差不多”。“对于一般知识性问题,目前我们的确看到了大语言模型(LLM)性能的停滞迹象,”企业软件公司Databricks的联合创始人兼执行主席Ion Stoica在接受《The Information》采访时表示,并补充道,“事实数据”比合成数据更为有用。过去,AI领域的快速发展很大程度上归功于新模型不断带来的性能跃升。
2024-12-02 21:12:11
665
原创 详解交叉注意力,和普通注意力有什么异同和优劣
普通注意力机制(Self-Attention)普通注意力机制(又称自注意力机制)用于同一输入序列内部的元素之间的关系建模。每个元素根据其他元素的特征动态调整自己的表示。计算方式为:对于输入序列中的每个位置,生成查询(Query)、键(Key)和值(Value),通过计算查询与所有键的相似度,得到注意力权重,然后加权求和对应的值。交叉注意力机制(Cross-Attention)交叉注意力机制则用于两个不同输入序列之间的信息交互。一个序列作为查询,另一个序列提供键和值。其计算过程类似。
2024-11-30 22:21:53
4102
原创 双编码器-单解码器架构的具体实现步骤是什么groundingDINO
双编码器-单解码器架构通过上述步骤有效地整合了视觉和语言信息,使得GroundingDINO能够在开放集目标检测任务中表现出色。通过精细化的特征融合和动态查询选择,该模型能够适应不同类别和复杂场景,为实际应用提供了强大的支持。
2024-11-30 22:17:04
420
原创 groundingDINO和GroundingDINOv2的区别和优劣
总体而言,GroundingDINOv2在多个方面相较于GroundingDINO都有所提升,尤其是在性能和应用范围上。随着技术的发展,新的版本不仅增强了现有功能,还扩展了模型在实际应用中的潜力。对于需要高精度和实时处理能力的场景,GroundingDINOv2无疑是更优的选择。
2024-11-30 22:12:50
648
原创 多模态视觉token压缩方法详解
👆点击蓝色,关注作者:葡萄是猫原文:https://zhuanlan.zhihu.com/p/877609202611月30日 11:00 直播已结束OminiParser:基于纯视觉的GUI Agent主讲嘉宾:鲁亚东,微软AI Frontiers实验室高级研究员。
2024-11-30 22:03:18
791
原创 LeCun团队新作DINO-WM:预训练视觉特征的世界模型,超强规划能力!
然而,随着环境复杂性的增加(需要更精确的控制和空间理解),将观察结果编码为单个隐藏向量的世界模型的性能会显著下降。如图 7 所示,可以看到,在基准上训练的扩散模型能得到看起来相当真实的未来图像,但它们在物理上并不合理,因为可以看到在单个预测时间步骤中就可能出现较大的变化,并且可能难以达到准确的目标状态。DINO-WM 所代表的方法看起来颇有潜力,该团队表示:「DINO-WM 朝着填补任务无关型世界建模以及推理和控制之间的空白迈出了一步,为现实世界应用中的通用世界模型提供了光明的前景。
2024-11-30 21:59:04
909
原创 LeCun团队新作DINO-WM:预训练视觉特征的世界模型,超强规划能力!
这里的 θ 表示这些模型的参数。该团队指出,其中的解码器是可选的,因为解码器的训练目标与训练世界模型的其余部分无关。如图 7 所示,可以看到,在基准上训练的扩散模型能得到看起来相当真实的未来图像,但它们在物理上并不合理,因为可以看到在单个预测时间步骤中就可能出现较大的变化,并且可能难以达到准确的目标状态。DINO-WM 所代表的方法看起来颇有潜力,该团队表示:「DINO-WM 朝着填补任务无关型世界建模以及推理和控制之间的空白迈出了一步,为现实世界应用中的通用世界模型提供了光明的前景。
2024-11-30 21:55:33
904
原创 Mamba作者点赞!清华团队深入分析长上下文建模中的状态崩溃
研究人员试验了具有不同状态大小的模型配置,包括来自Mamba-2官方checkpoint的三个预训练模型,大小分别为130M、370M和780M,另外3个模型(36M、47M、85M)则从头开始训练。上图显示了第一个token在不同时间步的内存强度,作者发现爆炸的头(第38层的第2、4、7个头)强烈倾向于在训练长度内保留所有信息,在t=8K时内存强度超过0.8。从上面的公式来看,这种结果可能出人意料,因为内部状态ht的更新应该具有稳定的指数内存衰减,即对于最后k个token具有良好的检索准确性。
2024-11-30 21:48:01
687
原创 大模型推理和训练所占用的显存怎么估算?
我们训练最常用的优化是Adam,而Adam需要同时维护参数的一阶动量和二阶动量两个状态的变量,也就说优化器使用显存是模型权重的2倍。)来加载模型,这样每个参数只占2个字节,所需显存就降为一半,只需要14G显存,那么一张16G的显卡就可以部署了。这是最基本的,训练模型肯定得先把模型加载进来吧,模型权重所需的显存和模型部署所需的权重是一样的。所以说,如果模型想要训练,只看这3部分,需要的显存是至少推理的3或4倍。所以1个7B的大模型部署,大约需要28G,两张16G显卡为32G,刚好可以满足。
2024-11-30 21:46:33
2961
原创 CVPR神组合:Resnet+注意力!热门buff叠加!简单好学易上手
论文介绍了一种名为ResNeSt的新型卷积神经网络架构,它通过结合通道注意力机制和多路径表示,提出了一个简单的多分支架构,能够在不同网络分支间应用通道-wise注意力,以增强特征图注意力和多路径表示的互补优势。MCA框架能够以最小的额外计算成本有效地整合多级基于矩的信息,实验结果表明,在图像分类、目标检测和实例分割等任务中,MCA方法达到了最先进的结果,超越了现有的通道注意力方法。而注意力机制的动态分配权重特点,则使ResNet能够更准确地识别和利用任务相关的特征,从而提高模型的准确性。
2024-11-30 21:45:18
683
原创 不到百行代码实现自然语言数据库查询:解密AI Agent的ReAct框架
在人工智能中,Agent 是一种能够感知环境并采取行动以实现目标的系统。LangChain 提供了一种灵活的 Agent 开发框架,通过整合语言模型(LLMs)和工具(如搜索引擎、数据库等)来解决复杂任务。ReAct 框架是 Agent 设计中的一种关键方法。它将推理(Reasoning)与行动(Acting)相结合,让 Agent 能够通过以下循环来解决问题:推理:基于上下文生成合理的假设。行动:根据推理采取具体的行动(如查询数据库、调用 API)。反馈循环:根据行动结果重新推理和调整。
2024-11-30 21:44:23
960
原创 Scaling Law正遭遇瓶颈?OpenAI们并不这么认为|
有趣的是,有传言称o1-preview与GPT-4的底层模型规模相似,据报道,o1-preview在内部被称为“具备推理能力的GPT-4o”。例如,GPT-4发布后,技术进步的速度引发了一场关于AI发展是否过快的讨论。然而,考虑到Sutskever近期创立的AI初创公司在资金和计算能力方面均逊于其竞争对手的情况,他对于“Scaling law”的表态或许与其公司的竞争策略有关。对这一观点表示认同,她认为,文本和图像数据蕴含的信息量有限,以文本消息为例,人们常常会误解对方意图,而语言模型也面临类似的困境。
2024-11-30 21:43:11
1270
原创 AI模型的开放与封闭:一场不断演化的博弈
Meta 的一位发言人在发给《时代周刊》(TIME)的邮件声明中表示:“目前没有单一的开源 AI 定义,而定义这一概念是一项挑战,因为以往的开源定义并未涵盖当今快速发展的 AI 模型的复杂性。上周,路透社报道称,与中国人民解放军有关的研究机构曾使用Meta的旧版Llama模型开发出一款用于军事的AI工具,这一事实凸显了模型一旦公开发布就无法收回的风险。研究结果表明,虽然计算能力一直是衡量AI模型性能的重要指标,但得益于算法的不断优化,开放模型在某些情况下也能以更少的计算资源达到与封闭模型相近的性能。
2024-11-30 21:37:29
723
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人