- 博客(20)
- 资源 (2)
- 收藏
- 关注
转载 大模型入门14:DeepSeek的系统级工程应用创新
有意思的是,Llama4全面转向了MoE架构,它发布的Llama 4 Scout、Llama 4 Maverick两个大模型均采用了与DeepSeek相同的MoE架构,这也直接反映了DeepSeek MoE架构的含金量,借此机会本文系统性总结了DeepSeek的技术创新和优势。我们可以大胆的预测,多Token预测(MTP)、MoE架构在很长一段时间都会是大模型架构研究和优化的热门方向(如MetaAI最新发布的Llama4就是一个很好的证明),软硬件协同也会越来越受到重视,开源与闭源的博弈也会继续演化。
2025-04-08 16:13:02
19
转载 大模型入门13:大模型发展简史及思考
会议上最引人瞩目的成果,是赫伯特·西蒙Herbert Simon和艾伦·纽厄尔Alan Newell介绍的一个程序“逻辑理论家”(Logic Theorist),这个程序通过选择问题的最佳解法,证明了52条数学定理中的38条,甚至比人类的解法更聪明。所有参与测试的人或机器都会被分开。现阶段以大语言模型为代表的人工智能技术正蓬勃发展,在全球经济不景气的大背景下,为经济发展提供了强劲活力,同时各种有利因素叠加为人工智能的进一步发展提供了更大空间,但也应注意人工智能历史上的多次”寒冬“给人们带来的警示作用。
2025-04-08 16:11:32
22
转载 大模型入门12:MCP协议
通过使人工智能应用与工具和数据源的交互方式通用化,MCP减少了开发开销,并创建了一个更具互操作性的生态系统,在这个生态系统中,创新统一而不是各自孤立,才有利于整个行业的发展。MCP(Model Context Protocol,模型上下文协议)是由Anthropic提出的开放标准协议,旨在解决大模型(LLMs)与外部数据源及工具之间的交互难题,目标是实现大模型与外部数据源和工具之间交互的标准化,因而其有望成为智能体开发的标准化基础协议。在N方面,有许多大模型,在M方面,有无数的外部对接工具。
2025-04-08 16:02:58
28
转载 大模型入门11:私有化部署问答助手术语、工具和解决方案
FastGPT是一个功能强大的平台,专注于知识库嵌入和自动化工作流程的编排。MaxKB(https://maxkb.cn)是一款基于大语言模型和RAG的开源知识库问答系统,专注知识库问答系统,支持本地化部署与RAG优化,广泛应用于智能客服、企业内部知识库、学术研究与教育等场景,是一款专注于知识库问答场景的软件产品。TensorFlow SavedModel是TensorFlow官方推荐的模型保存格式,它是一个独立于代码的、可恢复的、可重用的模型表示,包含了模型的完整信息,包括计算图、权重、资源文件等。
2025-04-08 16:00:59
55
转载 AI | 大模型入门(十):RAG vs. KAG
因此,需要构建一种新型多模数据库,将向量库、图库、关系库进行统一管理,消除现在的割裂状态,实现各类型数据的统一存储,实现查询使用简化操作,同时实现自主知识更新的功能,例如通过冲突检测自动修正知识图谱,实现多模态融合,将图像、视频等非文本数据纳入知识图谱。然而,对于需要基于结构化知识的一致的、基于事实的答案的任务,需严格逻辑和事实验证的专业领域(如法律条文引用、医疗诊断),或涉及多步推理的复杂问题(如“头痛+高血压→脑卒中风险”),那么KAG则可以提供更可靠的方法。
2025-04-08 15:58:23
116
转载 AI | 大模型入门(九):RAG数据库
大模型的知识源于预训练,将大量的知识压缩到参数之中,训练完成之后大模型的所掌握的知识也就固定不变了。正是因为大模型天然的这种不可解释性问题,在非常严肃的应用场景下,例如"我站在二楼楼顶,跳下去会不会失去生命”,我们需要一种手段(RAG)确保大模型输出的答案具有确定性,以增强用户对大模型的”信心“,以防止灾难性情景的发生。大模型表现出了不可思议的“意识”能力,而且出现了不可解释的“涌现”现象(当数据量和参数超过阈值,如千亿级,模型会突然具备小模型没有的能力),但其本质仍是模仿人类语言的“拼图游戏”。
2025-04-08 15:56:32
5
转载 AI | 大模型入门(七):参数量、Token、上下文窗口、上下文长度、温度
上下文长度(Context Length)是AI模型一次能够处理的最大Token数量,指的是模型在生成输出时能够一次性考虑的最大输入序列长度,它决定了模型处理能力的上限。上下文长度越大,模型能够处理的数据量就越大。
2025-04-08 15:53:36
67
转载 AI|大模型入门(六):主流厂商和产品
,原来基于一个叫做Transformer(Paper: Attention Is All You Need)神经网络架构、并有着大规模模型参数和大规模预训练数据的模型,可以拥有如此强大的内容生成能力(即涌现现象,至于为什么会出现涌现现象,大模型内部到底发生了什么,科学家们至今未给出明确的答案)。第三,虽然现在还处在跑马圈地的阶段,但是大模型在AIGC方面本质上还是互联网产品,谁拥有流量,谁拥有用户,谁就是最终赢家。上图是一个现代大模型演进树,标识为非灰色的是基于Transformer的模型,
2025-04-08 15:51:59
11
转载 AI|大模型入门(五):智能体(Agent)
多智能体应用:利用多智能体的协作来共同完成任务,不同的Agent角色,利用角色定义,知识/工具的差异,实现角色的职能和能力,并通过定义的不同的协作方式关联各个角色实现任务目标,比如Boss Agent统筹和发号施令,其他Agent各司其职执行任务,利用社群和分工协作提升效能和增强创新性的思想,可处理更加复杂的任务。大语言模型在逻辑推理、工具应用、策略规划、指令遵循等方面都有非常不错的表现,这使得大家开始意识到,将大语言模型作为Agent应用的核心认知系统,可以极大的提高智能体的规划能力。
2025-04-08 15:48:33
117
转载 AI|大模型入门(四):检索增强生成(RAG)
检索增强生成(Retrieval-Augmented Generation,RAG)是指对大型语言模型输出进行优化,使其能够在生成响应之前引用训练数据来源之外的权威知识库。大型语言模型(LLM)用海量数据进行训练,使用数十亿个参数为回答问题、翻译语言和完成句子等任务生成原始输出。在LLM本就强大的功能基础上,RAG将其扩展为能访问特定领域或组织的内部知识库,所有这些都无需重新训练模型。这是一种经济高效地改进LLM输出的方法,让它在各种情境下都能保持相关性、准确性和实用性。
2025-04-08 15:43:34
12
转载 AI|大模型入门(三):提示工程
思维链(CoT,Chain of Thought)提示过程是一种最近开发的提示方法,它鼓励大语言模型解释其推理过程。下图显示了 few shot standard prompt(左)与链式思维提示过程(右)的比较。思维链的主要思想是通过向大语言模型展示一些少量的样例,在样例中解释推理过程,大语言模型在回答提示时也会显示推理过程。这种推理的解释往往会引导出更准确的结果。
2025-04-08 15:39:50
4
转载 AI|大模型入门(二):微调技术
微调(Fine-tuning)是一种在自然语言处理(NLP)中使用的技术,用于将预训练的语言模型适应于特定任务或领域。Fine-tuning的基本思想是采用已经在大量文本上进行训练的预训练语言模型,然后在小规模的任务特定文本上继续训练它。Fine-tuning的概念已经存在很多年,并在各种背景下被使用。Fine-tuning在NLP中最早的已知应用是在神经机器翻译(NMT)的背景下,其中研究人员使用预训练的神经网络来初始化一个更小的网络的权重,然后对其进行了特定的翻译任务的微调。
2025-04-08 15:34:31
8
原创 linux服务器常用巡检命令
是表示主机的回坏地址,这个一般是用来测试一个网络程序,但又不想让局域网或外网的用户能够查看,只能在此台主机上运行和查看所用的网络接口。在这个例子中,内核版本是3.10.0,而"-957.el7"表示这是针对Red Hat Enterprise Linux 7(或CentOS 7,因为它们共享相同的内核)的第957次更新。第三行:UP(代表网卡开启状态)RUNNING(代表网卡的网线被接上)MULTICAST(支持组播)MTU:1500(最大传输单元):1500字节。1.显示网络接口信息:ifconfig。
2024-08-14 15:23:22
862
原创 jstack定位JAVA堆栈问题
7、先cat gc.stack 发现数据有点多在容器里看不方便,于是我下载到本地浏览,因为公司对各个机器的访问做了限制,我只能用跳板机先找到一台没用的机器a,把文件下载到a然后我再把a里的文件下载到本地(本地访问跳板机OK),先输入python -m SimpleHTTPServer 8080,linux自带python,这个是开启一个简单http服务供外界访问。3、出现具体线程的资源使用情况,表格里的pid代表线程的id,我们称他为tid。5、因为我们线程id号在堆栈里是16进制的所以需要做一个。
2023-08-16 08:55:33
270
1
原创 selenium 常用方法
注意:多个元素共用一个class,如果像列表内有多个按钮这种,需要操作某个按钮。可以先获取class内的所有元素,然后进行下标的方式去操作某个元素。如果需要都点击一遍,可以把返回值做一个循环操作。driver.minimize_window() # 最小化浏览器driver.forward() # 前进driver.back() # 后退driver.refresh() # 刷新# 获取当前标签页句柄# 获取浏览器所有标签页句柄# 切换标签页# 关闭当前标签页。
2023-07-26 17:22:41
174
1
转载 【运维工程师学习三】Linux中Shell脚本编写
但这种在命令行中的命令是即时输出结果的,不能重复使用(重复输入可以重复使用,但如果是要多行输入的命令则极不方便),要想方便重复使用同一个功能就把多行的命令放到一个标准格式的文件中,这就是shell编程了。本系统的解释器(shell)是bash,而我们知道sh是bash的软连接(类似于windows下的快捷方式),则最常用的方法就是“sh 脚本文件名”。综合起来,这个脚本的作用是获取本机的IPv4地址(除了本地回环地址和IPv6地址),并将其输出。到不是#开头的行开始,才是有效的命令、代码。
2023-07-05 15:34:03
328
1
转载 【Bug 全解决】 Java、Spring boot 后端项目 Bug 总结--转自https://blog.youkuaiyun.com/yumuing
在 @RequestMapping 中已经定义 params,又在 @RequestParam 中定义 params,导致出现错误。如果参数前写了@RequestParam(xxx),并且没有添加 require = false ,那么前端必须有对应的xxx名字才行,不然,就会发生错误。@RequestBody接收数据时,前端不能使用GET方式提交数据,而是用POST方式进行提交。否则也会发生错误。
2023-07-04 15:59:48
759
转载 Linux基础+命令操作+mysql、tomcat、nginx、RabbitMQ、Redis,ElasticSearch
linux组成:系统内核+系统级应用程序内核功能:CPU调度,没存调度,文件调度,网络调度,IO调度系统级应用程序:文件管理器,软件等linux内核下载:https://www.kernel.orglinux发行版:内核开源,可修改+系统级程序完整封装为linux发行版。不同发行版基础操作命令都相同,部分操作不同。
2023-07-04 15:48:02
167
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人