- 博客(1440)
- 资源 (2)
- 收藏
- 关注
原创 (5-4)任务规划与推理:动态任务分解与工具链集成
通过本实例,展示了在通用 AI Agent 中,基于神经符号系统的任务拆解方法结合了神经网络的感知能力与符号系统的推理能力,以有效地将复杂任务分解为可管理的子任务。(5)示例代码分析:在 __main__ 模块中,提供一个示例代码字符串,创建 ExplainableCodeAgent 实例,对示例代码进行分析,并打印结构化的分析报告,包括总问题数、详细问题描述和相应的建议等。总之,通过上述方法,开发者可以构建出既高效执行任务,又能清晰解释决策依据的 AI Agent,满足从工业到医疗等领域的复杂需求。
2025-04-01 15:50:09
609
原创 (5-3-02)任务规划与推理:逻辑推理与符号系统(2)神经符号推理的混合方法
此外,LNN模型是端到端可微分的,学习过程通过最小化一种新颖的损失函数来捕捉逻辑矛盾,从而增强了模型对不一致知识的鲁棒性。因此,研究者们开始探索将神经网络与符号逻辑结合的混合智能知识处理框架,旨在发挥两者的优势,实现更高效、更准确的知识处理。总之,神经符号推理的混合方法通过结合神经网络的感知能力和符号逻辑的推理能力,提供了更强大、更灵活且更具解释性的智能决策工具。这些方法在多个领域展现了广泛的应用前景,能够处理复杂的智能任务,提高模型的性能和可解释性。(3)实例文件Shen.py的具体实现代码如下所示。
2025-03-31 20:25:52
656
1
原创 (5-3-01)任务规划与推理:逻辑推理与符号系统(1)一阶逻辑与Prolog引擎集成
符号系统则提供了一种形式化的语言框架,用于表示知识、关系和规则,使 Agent 能够理解和处理符号化的信息,进行知识表示和推理,以解决实际问题。在 AI Agent 中,一阶逻辑与 Prolog 引擎的集成是一种强大的组合,它结合了一阶逻辑的形式化知识表示能力和 Prolog 引擎的高效逻辑推理能力。总之,一阶逻辑与 Prolog 引擎的集成,为 AI Agent 提供了强大的符号推理能力,尤其适用于需要形式化验证、可解释性和知识密集型的场景。(3)实例文件Zhishi.py的具体实现代码如下所示。
2025-03-31 20:23:06
605
原创 (7-1)DeepSeek的训练过程:数据准备与预处理
数据扩增(Data Augmentation)是指从现有数据生成新的数据样本,以人为地增加数据量的过程。这包括对数据进行不同方向的扰动处理,或使用深度学习模型在原始数据的潜在空间中生成新数据点,从而扩充数据集。数据增强(Data Augmentation)技术通过创建现有数据的多种变体来丰富数据集,为训练提供更大的数据量,使模型能够遇到更多不同的特征。这有助于模型更好地归纳未见过的数据,提高其在现实环境中的整体性能。
2025-03-30 18:53:43
484
2
原创 清华大学不公开开发秘籍:项目开发实战(微视频版)
本书通过9个创新且前沿的商业项目,帮助读者深入理解和掌握大型C#项目的开发技巧,让读者充分体验到当前编程技术和行业需求的最新动向。这些项目紧跟行业趋势,涉及从传统的企业管理系统到前沿的人工智能应用,帮助学习者深入了解项目开发的各个环节和实际技术需求。项目实战让学习者从单纯的代码练习中脱离出来,进入到真正的开发世界,体验到开发的全貌,从而大大提升编程技能和解决实际问题的能力。随着经验的积累,我逐渐明白了编程的核心不在于掌握技术的“深度”,而是如何将技术应用于实际问题的“广度”。
2025-03-30 18:48:50
409
原创 帮阿里的同学推广一本书,《DeepSeek大模型实战指南:架构、部署与应用》
给朋友推广一本书,欢迎粉丝们支持。DeepSeek是一款由中国领先的人工智能初创公司开发的大型语言模型,旨在彻底革新技术领域。与OpenAI的ChatGPT不同,DeepSeek专注于技术研发和创新,目标是实现通用人工智能(AGI),即在广泛的任务中达到或超过人类的能力。DeepSeek采用混合专家(MoE)架构,拥有6710亿参数,但每次推理仅激活370亿参数,显著降低了计算成本。此外,DeepSeek支持多模态任务,能够处理文本、图像、视频等多种数据类型,展现出卓越的推理能力和灵活性。
2025-03-30 18:46:22
579
原创 (5-2-02)任务规划与推理:现代规划技术(2)蒙特卡洛树搜索(MCTS)的扩展应用
蒙特卡洛树搜索(Monte Carlo Tree Search,MCTS)是一种用于在决策过程中寻找最优策略的启发式搜索算法,广泛应用于组合博弈、人工智能等领域。MCTS结合了随机模拟的广泛覆盖性和树搜索的精确性,能够在复杂的决策空间中有效地探索和利用。例如下是一个基于蒙特卡洛树搜索(MCTS)的通用 AI Agent 的例子,以井字棋(Tic-Tac-Toe)游戏为环境演示了MCTS的实现流程,包含环境定义、MCTS 算法实现和 Agent 决策逻辑。上述过程重复多次,每次迭代都加深搜索树的构建和完善。
2025-03-30 18:42:39
580
原创 (5-2-01)任务规划与推理:现代规划技术(1)基于深度学习的神经规划器
现代规划技术是利用先进的信息技术和数据分析方法,对资源、任务和流程进行高效管理和优化的工具与方法集合。例如下面的实例展示了一个基于深度强化学习(DQN算法)的简单AI Agent实现,主要用于解决一个特定的任务——清洁房间,使用了深度学习技术来学习如何在给定环境中做出最优决策。这种结构适用于处理相对简单的任务,但对于更复杂的环境可能需要更深或更复杂的架构。总之,神经规划器结合了深度学习和强化学习的优势,为复杂规划任务提供了高效的解决方案,尽管仍面临一些挑战,但其在多个领域的应用前景广阔。
2025-03-30 18:40:44
758
原创 (5-1-02)任务规划与推理:经典规划算法(2)分层任务网络(HTN)
分层任务网络是一种分层的、模块化的任务规划方法,它将复杂的任务分解为多个层次的子任务。每个子任务可以进一步分解为更小的子任务,直到达到最基本的可执行动作。HTN通过这种方式将复杂任务简化为一系列简单任务的组合,从而提高任务规划的效率和灵活性。
2025-03-28 15:56:09
1040
2
原创 (5-1-01)任务规划与推理:经典规划算法(1)A*算法与启发式搜索
通用AI Agent中的任务规划与推理系统是智能体高效完成复杂任务的核心,它结合了经典规划算法(如A*算法和分层任务网络HTN)以及现代规划技术(如基于深度学习的神经规划器和蒙特卡洛树搜索MCTS),并通过逻辑推理与符号系统(如一阶逻辑和神经符号推理)增强其决策能力。该系统能够将复杂任务分解为可管理的子任务,动态调整规划策略,并在不确定的环境中做出最优决策。同时,它通过跨平台工具链的API封装和代码智能体的设计,实现任务执行的高效性和可解释性,确保智能体在多样化应用场景中具备强大的适应性和鲁棒性。
2025-03-28 15:54:17
787
2
原创 (4-4-02)环境感知与决策模块:多智能体协同架构(2)验证代理的鲁棒性检测机制
验证代理的鲁棒性检测机制是指在通用AI Agent中,通过一系列方法和工具对模型的鲁棒性进行评估和验证,确保其在面对异常、对抗性或噪声数据时仍能保持稳定性和可靠性。例如,当用户需要分析股票数据时,执行代理可以直接调用相关的金融数据接口,获取实时数据,并运用代码解释器进行数据分析和可视化处理,最后生成详细的分析报告。例如,在处理财报数据时,如果验证代理发现财报数据与行业基准偏差超过5%,就会自动触发复核机制,对数据进行再次检查和分析,直到结果符合要求为止。
2025-03-27 14:20:07
702
2
原创 (4-4-01)环境感知与决策模块:多智能体协同架构(1)规划代理与任务分解策略
规划代理的主要功能是将大型复杂任务分解为一系列可管理的子任务,并为每个子任务制定详细的执行计划。它通过评估不同的路径和策略,选择最优的行动计划来实现用户的目标。规划代理能够基于已有的动作进行自我批评和反思,从错误中学习并优化后续的动作,从而提高任务完成的质量和效率。
2025-03-26 20:11:13
847
1
原创 (4-3-01)环境感知与决策模块:不确定性处理
通过贝叶斯网络和马尔可夫决策过程等方法,Agent能够量化和管理感知数据中的不确定性,从而提高决策的鲁棒性和可靠性。例如,在医疗诊断中,贝叶斯网络可以根据病人的症状和体征推断出可能的疾病,为医生提供辅助诊断的依据。贝叶斯网络与马尔可夫决策过程是通用AI Agent中处理不确定性的重要工具,两者结合使Agent能够在动态、不确定的环境中有效地感知和决策,广泛应用于自动驾驶、机器人导航和金融交易等领域。它通过在优化模型中考虑不确定性的影响,确保决策方案在各种可能的情境下都能保持良好的性能。
2025-03-26 14:15:56
884
1
原创 (4-2-02)环境感知与决策模块:动态环境下的决策模型(2)知识图谱驱动的推理引擎
总之,知识图谱驱动的推理引擎通过结构化的知识表示和逻辑推理,显著提升了通用AI Agent的决策能力和智能性。知识图谱是推理引擎的核心,它是一种结构化的语义知识库,以图的形式表示实体、概念及其之间的关系。构建知识图谱的过程包括知识获取、知识融合和知识更新等步骤。例如在下面的实例中,基于知识图谱实现了一个医疗诊断推理Agent,包含了知识构建、语义查询和推理功能。执行后可以根据用户输入的症状进行诊断,例如下面的执行过程,并且可以绘制可视化知识图谱,如图3-4所示。(3)可视化知识图谱。
2025-03-24 21:14:19
1105
3
原创 (4-2-01)环境感知与决策模块:动态环境下的决策模型(1)基于强化学习的决策框架
动态环境下的决策模型是通用AI Agent的关键组件,它使智能体能够在快速变化和不确定的环境中做出有效决策。通过不断的研究和改进,强化学习技术将为AI Agent在复杂动态环境中的决策提供更强大的支持。(4)主程序入口 (__main__):运行 train_agent() 进行训练,训练完成后,关闭 OpenCV 窗口 (cv2.destroyAllWindows())。执行后会输出如下所示的训练过程,并绘制智能体的移动动画图和训练过程的可视化图,如图3-2和图3-3所示。
2025-03-24 15:23:26
625
3
原创 (4-1-02)环境感知与决策模块:多模态感知技术(2)自然语言处理与语音识别
总之,在通用AI Agent中,自然语言处理和语音识别技术通常结合使用,实现从语音到文本的转换,再到文本的理解和生成,完成完整的语音交互流程。例如,智能助手接收用户的语音指令,通过语音识别将其转换为文本,再利用自然语言处理技术理解指令的含义,并生成相应的回答或执行相应的操作,最后通过语音合成将回答以语音形式输出给用户。(2)语音识别:通过 recognizer.recognize_google() 方法调用 Google 语音识别 API,将语音转换为文本,这里设置语言为中文(zh-CN)。
2025-03-23 21:59:44
1034
2
原创 (4-1-01)环境感知与决策模块:多模态感知技术(1)计算机视觉与传感器融合
计算机视觉与传感器融合技术是通用AI Agent环境感知的关键,通过整合计算机视觉与多种传感器数据,提升对环境的全面理解和认知。
2025-03-23 21:58:17
793
1
原创 (3-3-02)通用AI Agent的架构设计:典型架构模式分析(2)
这与“个体为本模型”(Agent-Based Model, ABM)的理念相契合,ABM通过模拟具有自主意识的智能体的行动和相互作用,来评估智能体在系统整体中的作用。任务的复杂程度是选择架构的重要依据。例如,在智能客服系统中,随着业务范围的扩大和用户需求的多样化,可能需要不断增加新的功能模块,如多语言支持、情感分析等。总之,通过以上对本章所学的架构方式进行的选择和总结,开发者可以根据具体的应用场景和需求,合理地选择和设计通用 AI Agent 的架构,以构建高效、灵活、可维护的智能系统。
2025-03-23 21:55:55
787
原创 少壮不努力,长大看孩子
本书通过9个创新且前沿的商业项目,帮助读者深入理解和掌握大型C#项目的开发技巧,让读者充分体验到当前编程技术和行业需求的最新动向。这些项目紧跟行业趋势,涉及从传统的企业管理系统到前沿的人工智能应用,帮助学习者深入了解项目开发的各个环节和实际技术需求。项目实战让学习者从单纯的代码练习中脱离出来,进入到真正的开发世界,体验到开发的全貌,从而大大提升编程技能和解决实际问题的能力。随着经验的积累,我逐渐明白了编程的核心不在于掌握技术的“深度”,而是如何将技术应用于实际问题的“广度”。
2025-03-23 21:52:53
897
原创 DeepSeek底层架构原理、部署、接入和应用实战
给朋友推广一本书,欢迎粉丝们支持。DeepSeek是一款由中国领先的人工智能初创公司开发的大型语言模型,旨在彻底革新技术领域。与OpenAI的ChatGPT不同,DeepSeek专注于技术研发和创新,目标是实现通用人工智能(AGI),即在广泛的任务中达到或超过人类的能力。DeepSeek采用混合专家(MoE)架构,拥有6710亿参数,但每次推理仅激活370亿参数,显著降低了计算成本。此外,DeepSeek支持多模态任务,能够处理文本、图像、视频等多种数据类型,展现出卓越的推理能力和灵活性。
2025-03-23 21:51:09
1223
原创 少壮不学习,被AI取代
本书通过9个创新且前沿的商业项目,帮助读者深入理解和掌握大型C#项目的开发技巧,让读者充分体验到当前编程技术和行业需求的最新动向。这些项目紧跟行业趋势,涉及从传统的企业管理系统到前沿的人工智能应用,帮助学习者深入了解项目开发的各个环节和实际技术需求。项目实战让学习者从单纯的代码练习中脱离出来,进入到真正的开发世界,体验到开发的全貌,从而大大提升编程技能和解决实际问题的能力。随着经验的积累,我逐渐明白了编程的核心不在于掌握技术的“深度”,而是如何将技术应用于实际问题的“广度”。
2025-03-21 14:10:57
956
原创 (2-3)开发工具链与框架:专用工具库
DialogFlow 是 Google 提供的一款人机交互平台,通过该平台可以轻松地设计出属于自己的交互机器人,比如常见的网页聊天机器人、电话智能客服等。DialogFlow 通过客户输入的语音或者文字甚至情感分析,来识别客户的意图(Intents),结合实体(Entities),来进行相应的回复。
2025-03-21 14:08:42
886
原创 (2-2)开发工具链与框架:仿真与测试环境
在通用AI Agent开发中,使用OpenAI Gym自定义环境是一个非常重要的步骤。OpenAI Gym提供了一个标准化的接口来创建和测试强化学习算法,但它自带的环境有限,因此开发者常常需要根据自己的需求创建自定义环境。1. 安装依赖首先确保你已经安装了必要的依赖库。2. 创建自定义环境下面我们将通过一个简单的例子展示如何创建一个自定义的Gym环境。假设我们要创建一个“猜数字”的环境,代理的任务是猜测一个随机生成的数字。(1)定义环境类。
2025-03-20 14:52:02
950
原创 DeepSeek新书推荐
给朋友推广一本书,欢迎粉丝们支持。DeepSeek是一款由中国领先的人工智能初创公司开发的大型语言模型,旨在彻底革新技术领域。与OpenAI的ChatGPT不同,DeepSeek专注于技术研发和创新,目标是实现通用人工智能(AGI),即在广泛的任务中达到或超过人类的能力。DeepSeek采用混合专家(MoE)架构,拥有6710亿参数,但每次推理仅激活370亿参数,显著降低了计算成本。此外,DeepSeek支持多模态任务,能够处理文本、图像、视频等多种数据类型,展现出卓越的推理能力和灵活性。
2025-03-20 14:47:03
857
原创 领红包了,一书在手,DeepSeek底层、架构、部署、接入和开发全掌握
周涛是阿里巴巴通义千问(Qwen)大模型团队的资深工程师,精通人工智能、神经网络和机器学习技术,熟悉大模型的训练和集成技术。近年来,随着AI技术的迅猛发展,周涛积极探索人工智能在工业制造、机器人、物联网开发和自动驾驶等领域的应用,并取得了显著成果。与OpenAI的ChatGPT不同,DeepSeek专注于技术研发和创新,目标是实现通用人工智能(AGI),即在广泛的任务中达到或超过人类的能力。通过这些内容,本书为读者提供了从理论到实践的全方位指导,是深入学习和应用DeepSeek大模型的宝贵资源。
2025-03-19 11:39:53
727
1
原创 (2-1)开发工具链与框架:主流开发框架
通用AI Agent的开发工具链与框架主要包括主流开发框架、仿真与测试环境以及专用工具库。主流开发框架如TensorFlow/PyTorch的Agent扩展和ROS集成,为Agent的构建和训练提供了强大的支持。仿真与测试环境如Unity ML-Agents、Gazebo和OpenAI Gym,允许开发者在模拟环境中对Agent进行测试和优化。专用工具库涵盖了对话系统开发、开源多Agent框架、云端异步处理环境搭建以及多Agent协同开发框架等多个方面,进一步丰富了Agent的开发和应用。
2025-03-18 21:00:40
999
2
原创 (3-3-01)通用AI Agent的架构设计:典型架构模式分析(1)
本节将分析几种典型的架构模式,包括基于信念-愿望-意图(BDI)的经典方法、端到端学习与混合架构、多智能体协同架构,以及在实际应用中的架构选型与场景适配指南。BDI 架构是一种基于认知科学的智能体架构,它将智能体的决策过程建模为信念(Belief)、愿望(Desire)和意图(Intention)三个核心组件。(1)模块化组件与端到端学习结合:将感知、决策和执行等模块分别设计,但在某些关键环节引入端到端学习模型,以提升特定模块的性能。随着深度学习技术的发展,端到端学习架构逐渐成为智能体设计的一大趋势。
2025-03-18 11:08:35
734
1
原创 (3-2)通用AI Agent的架构设计:核心组件与数据流
环境感知是通用 AI Agent 的基础能力,它使 Agent 能够获取和理解周围环境的信息,从而为后续的决策和行动提供依据。在通用 AI Agent 的运行过程中,环境感知、任务规划和动作执行等环节会产生大量的数据,如何高效处理这些数据是关键。(2)数据缓存(cache_data):使用 deque 实现数据缓存,将近期处理的数据暂存,便于快速访问和处理,避免重复计算。(3)特征提取与状态表示(extract_features):统计每列边缘像素的平均值,形成一个特征向量,作为环境的状态表示。
2025-03-16 18:58:13
929
3
原创 (3-1-02)通用AI Agent的架构设计:分层架构设计(2)容错与实时性设计
语音信号的预处理、特征提取和模型推理分别在不同的线程和计算单元上并行执行,大大缩短了处理时间,确保了语音识别的实时性。例如,在一个自动驾驶系统中,既需要在传感器故障时保证系统的安全性(容错性),又需要在高速行驶时实时处理大量传感器数据(实时性)。实时性指系统在特定时间内完成任务的能力,关键在于确保系统能够在预定的时间限制内响应和处理任务。(4)容错监控(FaultMonitor):在延迟监控中定义了各个组件的延迟阈值,并在处理周期中监控各阶段的延迟,及时发现并报告超时情况。安全边界约束(如动作空间限制)
2025-03-16 18:55:47
957
2
原创 (3-1-01)通用AI Agent的架构设计:分层架构设计(1)
通用AI Agent的架构设计以分层架构为核心,涵盖感知、决策与执行三大模块,强调模块化、松耦合、容错与实时性。通过优化数据流,实现高效的信息传递与处理。典型架构模式包括BDI架构、端到端学习架构、混合架构以及多智能体协同架构,各具优势,适用于不同场景。架构选型需综合考虑任务需求、环境特性与性能要求,以实现灵活、高效且可靠的系统设计。
2025-03-16 18:53:45
1002
1
原创 (1-3)通用AI Agent概述:典型应用场景与发展趋势
具身智能发展使Agent具备物理交互能力,拓展应用场景。通用AI Agent在智能助手、工业自动化与复杂决策场景等多领域应用广泛,如智能助手提供精准信息与服务,工业自动化优化生产流程,复杂决策场景辅助企业决策等。其技术演进路径呈现多维度发展趋势,包括模型架构优化、学习范式转变、多模态融合、具身智能发展以及可解释性和高效低耗等方向,推动通用AI Agent向更智能、更实用的方向发展。随着统计学习和数据驱动方法的发展,AI系统开始通过海量数据训练,逐步实现对复杂环境的理解和动态响应,从而迈向更高层次的智能化。
2025-03-14 13:48:17
832
1
原创 (1-2)通用AI Agent概述:通用AI Agent的核心特征
例如,在智能家居系统中,Agent可以通过感知室内的温度、湿度、光线等环境参数,自动调节空调、灯光等设备,以提供舒适的居住环境。总之,环境感知使Agent能够实时获取和理解环境信息,而动态适应则使其能够在环境变化时迅速调整行为和策略。通用AI Agent的自主性、学习性与目标导向性是其核心特征,这些特征使其能够在复杂多变的环境中自主地感知、学习和决策,以高效地完成各种任务。通用AI Agent的环境感知与动态适应能力是其核心特征之一,这些能力使其能够在复杂多变的环境中有效地感知和应对各种情况。
2025-03-14 13:47:34
600
1
原创 (1-1)通用AI Agent概述:AI Agent的定义与分类
AI Agent是一种能够在特定环境中自主感知、决策并执行任务以达成既定目标的智能实体。根据其智能程度与工作方式,可分为反应式Agent与认知式Agent。从系统架构角度,还可分为单Agent与多Agent系统。
2025-03-14 13:46:30
1117
原创 (9-5)MM-Vet多模态大模型评估系统:评估测试
如果你因为网络原因无法访问 GPT-4(gpt-4-0613),可以将模型输出结果(json 文件)上传到 MM-Vet v2 在线评估器Hugging Face Space以获取评分结果。得到的评估结果如图9-1所示。图9-1 部分评估结果。
2025-03-13 10:57:37
206
2
原创 (9-4-01)MM-Vet多模态大模型评估系统:多模态大模型评估
(4)函数load_metadata的主要功能是加载元数据文件(mm-vet-v2.json)和一个可选的子集文件(args.subset),解析并统计与任务能力相关的信息,包括能力类别的计数、组合及其分布。(1)下面代码的功能是实现对大模型预测结果与人工标注的正确答案之间的比较,并根据一定的规则为预测结果生成一个准确性得分(Correctness Score)。(5)函数runs()的主要功能是使用指定的 GPT 模型对 AI 模型的预测结果进行多次评估,输出评分结果并保存到文件中。
2025-03-12 17:03:41
332
2
原创 (9-3-06)MM-Vet多模态大模型评估系统:推理脚本(6)
前面介绍的“inference”目录中的各种大模型推理文件(如 claude.py、gpt4.py),用于与具体的大模型进行交互。每个文件通常封装了对应模型的 API 调用逻辑,使得系统能够生成预测结果。这些文件的主要任务是执行推理,而非评估。通过本项目可以推理常见的多模态大模型,例如GPT-4、阿里通义千问等,并将推理结果保存为 JSON格式。请看下面的命令,功能是推理GPT-4大模型,并得到推理文件gpt-4o-2024-05-13_detail-high.json。
2025-03-11 12:50:01
144
2
原创 (9-3-05)MM-Vet多模态大模型评估系统:推理脚本(5)
文件qwen.py实现了一个多模态对话系统 Qwen,能够处理图像和文本输入,并生成自然语言回复。通过集成 Dashscope API,代码将图像路径和文本查询发送给 API 进行处理,并根据返回的结果生成回答。通过集成 CLIP 视觉编码器和语言模型(例如 MPT-7B),代码能够从提供的图像和文字中提取信息,并生成上下文相关的回答。上述代码实现了阿里通义千问(Qwen)大模型的推理功能,通过与 Dashscope API 交互,处理文本和图像的多模态输入,进行推理生成响应。
2025-03-11 12:46:54
141
1
原创 (9-3-04)MM-Vet多模态大模型评估系统:推理脚本(4)
文件internvl.py实现了类InternVL,用于调用 OpenGVLab 提供的多模态模型 InternVL-Chat-V1-2。模型支持通过文本和图像结合的方式回答问题,输入内容通过 <IMG> 标签标识图片路径。文件ixc2.py实现了一个多模态对话模型 InternLM-XComposer2-VL,支持图文混合输入,能够通过图像和文本信息生成详细的回答。模型通过自动设备映射高效分配资源,支持多 GPU 部署,并实现了单图和多图的嵌入处理。
2025-03-10 20:59:36
122
原创 (9-3-03)MM-Vet多模态大模型评估系统:推理脚本(3)
文件gemini.py定义了类Gemini,用于调用 "gemini-1.5-pro" 模型,通过 Google 的生成 AI 服务处理用户输入的多模态数据(图像和文本)。此外,在文件gemini.py中还包括命令行解析器代码,用于设置模型名称、API 密钥和其他配置。程序通过用户提供的 OpenAI API 密钥访问 API,将用户的文本和图像输入处理为请求格式,并生成简洁的文本响应。文件emu2.py实现了一个名为 Emu2 的多模态交互模型,用于处理文本和图像结合的输入,生成自然语言响应。
2025-03-10 15:06:26
122
1
原创 春暖花开:正是学编程的季节
本书通过9个创新且前沿的商业项目,帮助读者深入理解和掌握大型C#项目的开发技巧,让读者充分体验到当前编程技术和行业需求的最新动向。这些项目紧跟行业趋势,涉及从传统的企业管理系统到前沿的人工智能应用,帮助学习者深入了解项目开发的各个环节和实际技术需求。项目实战让学习者从单纯的代码练习中脱离出来,进入到真正的开发世界,体验到开发的全貌,从而大大提升编程技能和解决实际问题的能力。随着经验的积累,我逐渐明白了编程的核心不在于掌握技术的“深度”,而是如何将技术应用于实际问题的“广度”。
2025-03-09 19:31:41
820
3
文本分类与情感分析算法 数据集
2024-05-22
行为预测算法:基于自动驾驶大模型的车辆轨迹预测系统
2024-05-13
专栏《NLP算法实战》中第9部分《大模型Transformer》的所有配套源码
2024-04-24
斗转星移换图系统(PyTorch+Visdom+CycleGAN)源码
2024-04-24
Tensorflow机器翻译系统和PyTorch机器翻译系统
2024-03-22
AI智能问答系统的源码资料
2024-03-15
《基于深度强化学习的量化交易策略》一文的源码
2024-02-29
比特币价格预测系统的项目的源码和数据集
2024-01-13
我的专栏《大模型从入门到实战》2-1到2-3的配套源码,包含数据集
2024-01-11
金融大模型实战:个人专栏《检测以太坊区块链中的非法账户》项目的源码和数据集
2024-01-11
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人