- 博客(10)
- 收藏
- 关注
原创 本地部署OpenManus初步体验(手把手教程+测试效果展示)
Manus支持多种工具的调用与集成,如浏览器工具、文件操作工具、代码执行工具和搜索工具等(主要是一些第三方库,如),可以自主浏览网页、查询信息、生成报告等,无需用户手动干预。Manus采用多代理协同架构,通过“规划-执行-验证”三代理模式,将复杂任务拆解并并行处理,展现出强大的任务执行能力和适应性。Manus的发布标志着AI从单一任务执行向复杂决策的跨越,其功能涵盖办公场景、人力资源、房产分析、金融分析、教育内容创建等多个领域,展现了其作为通用型AI Agent的广泛适用性和高效性。自动调用浏览器弹出网页。
2025-03-15 21:36:11
1476
原创 Zotero+满血DeepSeek(siliconflow硅基流动API)成就科研大杀器!
是一种在Zotero的GPT插件中使用的高级功能,它允许用户通过特定的文本嵌入模型来提升文献管理助手的性能。这种模型能够将文本转换为数值向量,捕捉文本的深层语义信息,从而使得文献搜索、推荐和摘要生成更加精准和相关。通过自定义嵌入,文献管理助手能够更深入地理解文本内容,提供更高质量的服务,这对于处理专业或特定领域的文献尤其重要。这里选择免费的BAAI/bge-m3即可最后:点击保存当前配置,并随便起个名字。
2025-02-08 11:59:54
10026
30
原创 告别deepseek服务器繁忙!siliconflow硅基流动+chatbox使用deepseek
SiliconFlow(硅基流动)是一个专注于生成式人工智能(GenAI)计算基础设施的平台,通过提供高性价比的API服务、高性能的推理引擎以及丰富的模型支持,助力企业和开发者快速实现AI应用开发与部署,推动AI技术的普及和商业化应用。Chatbox是一款跨平台的AI桌面客户端应用(开源的),支持连接多种先进语言模型,具备多语言对话、本地数据存储、团队协作等功能,广泛应用于办公、学习、创意等多个场景,为用户提供高效、安全的AI交互体验。
2025-02-06 13:14:38
10079
2
原创 MM-LLMs: Recent Advances in MultiModal Large Language Models MM-LLMs: 多模态大语言模型的新进展(二)
—腾讯人工智能实验室、日本京都大学、阿联酋穆罕默德·本·扎耶德人工智能大学2024.2发布在arxiv 2024.8 发表在《Findings of the Association for Computational Linguistics: ACL 2024》上,属于中科院2区太长不看版-AI总结:在LLMs出现之前,已有多次对传统多模态预训练(MM PT)的调查。这些模型由于端到端训练需要大量计算资源,且在指令跟随、上下文学习(ICL)、思维链(CoT)和交互能力等方面存在不足。
2024-11-26 20:33:15
906
原创 MM-LLMs: Recent Advances in MultiModal Large Language Models MM-LLMs: 多模态大语言模型的新进展(一)
在过去的一年中,多模态大语言模型( MM-LLMs )取得了长足的发展,通过经济有效的培训策略,增加了现成的LLMs,以支持MM的输入或输出。由此产生的模型不仅保留了LLM固有的推理和决策能力,还赋予了MM任务多样化的能力。在本文中,我们提供了一个全面的综述,旨在促进MM - LLMs的进一步研究。首先,我们概述了模型架构和训练管道的一般设计公式。随后,我们介绍了一个包含126种MM - LLMs的分类学,每种MM - LLMs都有其特定的剂型。
2024-11-26 19:18:52
734
原创 多模态大型语言模型综述:在不同任务中的性能和挑战(三)
MLLMs在图像任务中表现出架构设计的多样化和多模态融合技术的不断创新。它们依赖于高质量、大规模的数据集,并采用不同的方法来适应下游任务。未来的研究将聚焦于优化模型架构、创新多模态融合、构建大规模数据集、灵活适应下游任务,并解决可解释性、公平性和隐私保护等挑战。
2024-11-24 19:48:07
822
原创 多模态大型语言模型综述:在不同任务中的性能和挑战(二)
多模态模型通过整合文本和图像信息,实现更智能、更全面的理解和推理,在图像理解任务中发挥着至关重要的作用。在这个领域中,MiniGPT-4 [ 41 ],[ 42 ],InstructBLIP [ 43 ]和Wiki - LLaVA [ 44 ]是三个备受关注的模型,以及其他相关的模型,如3DMIT [ 45 ],GroundingGPT [ 46 ],ModaVerse [ 47 ],Vary-toy [ 48 ],LLaVAMOLE [ 49 ]和CogCom [ 50 ]。
2024-11-23 14:34:49
768
原创 多模态大型语言模型综述:在不同任务中的性能和挑战(一)
在数据爆炸式增长和技术突飞猛进的时代,多模态大语言模型( MLLMs )站在了人工智能系统的前沿。MLLMs旨在无缝集成各种数据类型——包括文本、图像、视频、音频和生理序列——解决现实世界应用的复杂性,远远超出单模态系统的能力。本文系统梳理了MLLM在自然语言、视觉、音频等多模态任务中的应用。我们还对比分析了不同多层线性模型在任务中的侧重点,并对当前多层线性模型的不足提出了见解,为未来的研究提供了潜在的方向。通过这些讨论,本文希望能为MLLM的进一步发展和应用提供有价值的见解。
2024-11-17 17:06:51
1333
原创 多模态概述&多模态综述
多模态技术是一种涉及多种类型数据(如文本、图像、音频、视频等)的数据处理和理解技术。它通过整合这些不同类型的数据,模拟人类的多感官感知,以实现更全面和深入的信息处理。这项技术在多个领域都有应用,包括但不限于自动驾驶、情感分析、图像描述生成、视觉问答等。多模态数据融合是这一技术的核心,它可以通过数据级融合、特征级融合或决策级融合来实现。随着深度学习的发展,基于神经网络的方法在多模态融合中也变得越来越重要。
2024-10-24 16:47:17
888
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人