自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(22)
  • 收藏
  • 关注

原创 Agent2Agent(A2A)协议介绍

谷歌在Google Cloud Next 25大会上(4月9号),开源了首个标准智能体交互协议Agent2Agent Protocol(简称A2A)。这是一种开放式互操作性协议,旨在实现跨不同框架和供应商的 AI 代理之间的无缝协作。A2A 得到了包括 Salesforce、SAP、ServiceNow 和 MongoDB 在内的 50 多家技术合作伙伴的支持,为 AI 代理提供了一个通用框架,使其能够安全地交换信息、协调行动并跨企业平台集成。

2025-04-11 17:33:23 441

原创 复杂系统的一种新的理解-计算等价性原理学习

最近在AI的学习中接触到了新的概念,计算等价性原理。这在斯蒂芬·沃尔夫拉姆的《一种新科学》(A New Kind of Science)中首次提出。书中说到,简单的计算程序而非复杂的数学方程,可能是理解自然界复杂性的关键。“计算等价性原理”(The Principle of Computational Equivalence)是其核心概念之一,它让我们对复杂系统和计算能力有另一种理解。

2025-03-31 16:26:13 831

原创 OpenManus使用调研

OpenManus 与 Manus 均为基于多智能体(Multi-Agent)架构的 AI Agent 产品,旨在通过任务拆解、工具调用(如网络搜索、代码执行等)实现复杂任务自动化。

2025-03-19 14:18:41 929

原创 阿里QwQ-32B模型研究

Meta 杨立昆团队“最难LLM评测榜”加州大学伯克利分校工具准确性评测。谷歌提出的指令理解测试。

2025-03-11 14:30:11 719

原创 deepseek云端免费部署及调用教程

当前大家对AI的使用热情高涨,deepseek因为其在大模型中的优秀表现而被大家熟知。但最近其官网服务的承载能力显然满足不了大家不断增长的使用需求,经常出现稍后重试的情况。同时也有人希望能自己来部署大模型,使用RAG,满足特定需求。但大模型对服务硬件配置的高要求,使得很多人无法自己在自己电脑上运行一个基本能玩的大模型。那么寻找免费的云服务就是一个很自然的选择,很多云厂商都有免费资源可供短期使用。这里做一个简单的大模型在云端部署教程做参考,目标是完成大模型云端部署并可在本地进行访问,完成个人ai的第一步。

2025-02-21 19:59:55 1112

原创 Chatbot Arena大模型排行榜介绍

用户可以根据实际需求,定义特定的测试场景和问题集,从事先准备的测试用例中选择,或自定义输入,以消除测试偏差,获得更准确的评估结果。

2025-02-12 17:16:14 2887

原创 著名大模型评测榜单(不同评测方式)

在评估大语言模型的性能时,一种主流的途径就是选择不同的能力维度并且构建对应的评测任务,进而使用这些能力维度的评测任务对模型的性能进行测试与对比。由大型机构或者研究院所排出榜单。

2025-02-08 19:50:16 1376

原创 瑞典PUST项目参考-成功和失败

1、以用户利益为目标(而不是 "节约")2、让真正的用户参与进来3、分步实施,边做边学4、谨防标准平台--它们不能很好地满足独特的需求。5、倾听那些比外部供应商更了解内部系统和运营的人的意见。

2025-01-24 15:44:50 1027

原创 大模型评测体系一览图

在大模型评测过程中首先明确的是评测目的,在之前提过比较常见情形,比如大模型研发人员、使用者和评测机构他们关注的方向不同,导致评测的目的也不一样。确定评测目的,就基本可以确定评测的范围,是做全面评估还是做特定场景的验证。选择做评测的大模型不同(通用的、垂直的还是其他)评测的方向也不同。确定评测的方向时,关注的是哪些能力哪些性能,针对关注的内容确定评测的指标。然后是确定评测分数的计算方式,这里和策略倾向,模型选择,关注内容有很大关系。按照整个评测的流程去思考,完成下面的一览图。作为整个评测体系的流程以供参考。

2025-01-23 18:49:18 679

原创 敏捷回顾实践(一种组织方式)

迭代回顾会议,所有人参与。氛围轻松,不追责,只看问题。首先查看上一次迭代回顾会议中的结论内容,总结从上次回顾会到现在,团队对关注的问题解决到了什么程度,改进措施做到了多少。以团队的结果数据图表的方式体现团队努力过程,给团队直观的呈现。

2025-01-22 18:33:11 239

原创 需求提测实践

开发人员进行需求提测,表明需求文档中全部或者部分功能已经实现。此时需要测试人员对实现部分做验证,确认与澄清后需求内容的一致,满足预期。测试人员为尽快确认提测内容满足需求预期,一般使用冒烟测试的方法,验证核心功能点,防止提测代码质量过低,执行因缺陷问题频繁中断,挤压预期测试执行时间。

2025-01-21 10:37:57 244

原创 大模型评测方法(六)

前面基本把整个基准评测体系讲完了。有了评测体系,可以按照步骤一步步去执行。不过在实际执行过程中还有许多细节需要注意,同时还有一些挑战需要我们去应对。这里简单做一下介绍,这样对大模型评测能有更进一步的认识。

2025-01-20 19:03:59 1912

原创 大模型评测方法(五)

一、性能评测工具1.深度学习框架自带的评测工具PyTorch:它提供了如库,该库包含了一系列用于评估模型性能的指标计算函数。例如,在分类任务中可以方便地计算准确率(Accuracy)、精确率(Precision)、召回率(Recall)和 F1 - score 等。以计算准确率为例,使用函数,只需将模型的预测结果和真实标签传入,就能快速得到准确率的值。TensorFlow:它有模块,提供了多种用于模型评估的度量指标。比如在评估回归模型时,可以使用(均方误差)来衡量预测值与真实值之间的误差;

2025-01-17 17:41:00 2314

原创 需求评审实践

-需求检查清单。

2025-01-16 15:22:44 704

原创 敏捷组织规划(参考)

敏捷实践在很多公司都有展开,特别是在软件研发公司,为了研发质量更好,交付效率更高,以敏捷最佳实践为入口,希望发展出适合公司的更高效模式。较大的研发部门需要一个敏捷团队去协调。那么这个团队的负责人就需要对整个敏捷组织做设计规划。

2025-01-15 18:40:46 276

原创 敏捷实践简介

敏捷宣言官网敏捷宣言及敏捷12原则详细论述解释《敏捷软件开发:原则、模式与实践》(美)马丁,第一章 敏捷实践《2022中国企业敏捷实践白皮书》《实施敏捷开发,看这一篇就够了》《什么是敏捷?传统到敏捷的发展历史《精益产品开发原则、方法与实施》何勉 第1章 从传统向敏捷软件开发的演进敏捷实践项目实例《精益开发实战 用看板管理大型项目》(瑞典)Henrik Kniberg。

2025-01-14 17:36:24 547

原创 大模型评测方法(四)

明确评估的具体任务类型(如文本分类、问答系统等),并选定适当的评价指标(如准确率、F1分数)。确保这些指标能够全面衡量模型的各项能力。

2025-01-14 17:31:37 2682

原创 大模型评测方法(三)

2025-01-13 19:29:22 1348

原创 大模型评测方法(二)

例如,为了评估医学知识理解能力,可以选择医学文本分类、医学实体识别等任务。在进行大模型基准测试时,首先需要确定测试的指标体系,明确评测的维度和对应指标。例如,医学问答模型需要具备医学知识理解、问题理解、答案生成等能力。例如,对于医学文本分类任务,可以选择准确率、F1分数等指标。根据模型的应用目标,确定需要评测的场景。例如,若要评测一个医学问答模型,则场景为医学问答。对评测结果进行分析,评估模型在不同场景、能力和任务上的表现,并找出模型的优缺点。将模型应用于评测数据集,得到模型的输出结果。

2025-01-13 13:44:13 990

原创 大模型评测方法(一)

大模型能够协助我们完成各种任务,改变我们的生产和生活的方式,提高生产力,为我们带来便利,但同时使用过程中也伴随着诸多风险与挑战,如泄露隐私数据,生成带有偏见、暴力、歧视、违反基本道德和法律法规的内容,传播虚假信息等。因此对大模型能力及其不足之处形成更深入的认识和理解,预知并防范大模型带来的安全挑战和风险,需要针对大模型开展多方位的评测,一般也叫大模型基准测试。大模型基准测试体系涵盖了大模型的测评指标、方法、数据集等多项关键要素,是指导大模型基准测试落地实践的规范。

2025-01-10 17:33:30 3152

原创 机器学习评估指标简介

准确率表示模型预测正确的样本占总样本数的比例,是一种衡量分类模型整体性能的指标。

2025-01-10 10:55:14 1540

原创 Ollama部署-Windows

Ollama 是一个基于 Go 语言开发的开源框架,专为本地环境设计,用于构建和运行大型语言模型(LLMs)。它的核心功能包括模型运行、模型管理、自定义模型、API 支持、多模态能力以及安全性。Ollama 的技术优势在于其对本地化部署的重视,以及对开发者友好的接口设计。它支持多种大型语言模型的本地运行,无需依赖远程服务器,并且提供了一个简单的 API 用于创建、运行和管理模型。

2025-01-10 09:56:09 573

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除