
大模型
文章平均质量分 80
闫哥大数据
终有一天,我会爬上一座高坡,看到不一样的风景,转身,告诉身边的人,我发现了什么。
B站账号:闫哥大数据 资料QQ3 群 :523554921
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
coze工作流完成行业调研报告
AI 目前发展的路径,提示词-->工作流-->智能体以写文章为例,以前是有啥不懂的问 AI,AI 给你提示,后来是工作流,跟流水线一样,先做啥再做啥,一步步智能化来做,智能体更像是一个机器人,你让它帮你写文档,给它讲清楚,它就可以帮你写,你只需要审阅就可以啦。工作流更像是面向对过程,智能体像是面向对象。原创 2025-05-10 17:14:51 · 857 阅读 · 0 评论 -
高德MCP制作旅游攻略
它是Model Context Protocol的简称,是一种 由Anthropic推出的开放标准,旨在实现大型语言模型(LLM)与 外部数据源和工具之间的无缝集成。MCP通过标准化协议,使AI 模型能够安全地访问和操作本地及远程数据,从而提升AI应用的响应质量和工作效率。MCP 就像是一个 “通用插头” 或者 “USB 接口”,制定了统一的规范,不管是连接数据库、第三方 API,还是本地文件等各种外部资源,目的就是为了解决 AI 模型与外部数据源、工具交互的难题。原创 2025-04-24 11:12:28 · 865 阅读 · 0 评论 -
通过Cline智能体完成python点名系统
OpenAI的元老翁丽莲于2023年6月在个人博客首次提出了现代AI Agent架构。智能体(AI Agent)是一种能够自主行动、感知环境、做出决策并与环境交 互的计算机系统或实体,通常依赖大型语言模型作为其核心决策和处理单元 ,具备独立思考、调用工具去逐步完成给定目标的能力。原创 2025-04-23 09:25:00 · 744 阅读 · 0 评论 -
DeepSeek+大数据分析快速应用落地
编写一个 sqoop 命令,将 hive 中的 ai_test 数据库中的ads_yj_xl_gl 数据导出到 mysql 数据库中,mysql 数据库的主机名是 node01,用户名是 root,密码是 123456。提示词:根据以上 3 个文件,生成 hive 的建表语句,建表时字段为英文,注释为中文,字段名称不要太长,注意第一行是我们的表头。1、准备一个 hive 的环境,并可以进行远程连接。原创 2025-04-16 21:55:59 · 1401 阅读 · 1 评论 -
第三章:大模型中的提示学习
特性传统微调情境学习(GPT-3)参数更新需要梯度更新,调整模型参数冻结参数,无需更新数据需求需要大量任务特定数据仅需少量示例即可完成任务任务适应性单一任务专用多任务通用,灵活性强训练成本高成本,复杂过程低成本,高效易用先列公式:把解题思路一步步写出来再算结果:根据推导过程得出最终答案 模型通过生成中间推理步骤(如:"10个苹果-3个=7个 → 7个+5个=12个"),模拟人类思考过程。思维链的三大核心作用(对比图中传统微调方法)作用维度传统微调(图像右侧)原创 2025-03-16 22:32:01 · 884 阅读 · 0 评论 -
第一章:大模型的起源与发展
想象你在读一本很厚的书,书里有一句话特别重要,但这句话藏在第100页的某个角落。如果让你回答关于这句话的问题,你可能会直接“翻到第100页”仔细看它,而不是从头到尾把整本书再读一遍——这就是“注意力机制”的核心:让AI学会“主动关注重点”。翻译句子:AI要把“我爱吃苹果”翻译成英文。当它翻译“苹果”(apple)时,会专门“注意”原句中的“苹果”这个词,而不是平均看待所有字。生成回复:如果你问AI:“夏天的巴黎有什么好玩的?”,它会自动“注意”关键词“夏天”“巴黎”“好玩”,再生成回答。原创 2025-03-11 23:56:25 · 842 阅读 · 0 评论 -
大模型是如何蒸馏像Qwen-7B,Llama-3 这种小模型的?
DeepSeek将自研大模型(如DeepSeek-R1)生成的80万条高质量解题数据(称为“蒸馏数据”)用于训练Qwen、Llama等小模型,目的是让小模型模仿大模型的推理能力。原创 2025-02-25 12:02:46 · 411 阅读 · 0 评论 -
DeepSeek中的蒸馏技术指的是啥?
蒸馏技术是一种“站在巨人肩膀上”的方法,让小模型通过模仿大模型的优秀示例,快速获得强大的推理能力。将大模型(比如论文中的DeepSeek-R1)的“知识”转移给小模型。大模型通过生成详细的解题示例(比如数学题的完整推理过程),小模型通过模仿这些示例学习,最终获得接近甚至超越大模型的能力。蒸馏技术就像“学霸教徒弟”——让强大的大模型(老师)把自己的解题思路和知识教给小模型(学生),让小模型变聪明,而不用从头学起。类似于学霸(大模型)把解题步骤写出来,学生(小模型)照着学霸的笔记练习,最终也能解出难题。原创 2025-02-24 16:32:35 · 273 阅读 · 0 评论 -
关于<<DeepSeek-R1:通过强化学习激励大语言模型的推理能力>>的解读
用大模型(如DeepSeek-R1)生成的解题示例,直接训练小模型(如7B参数的Qwen)。例如,7B的小模型在数学题上击败了GPT-4和Claude-3.5,32B的模型性能接近OpenAI的顶级模型。最终模型不仅推理能力更强,还能生成更清晰、符合人类阅读习惯的答案,性能媲美OpenAI的顶级模型。在数学竞赛(如AIME)、编程比赛(Codeforces)和知识问答(如MMLU)中,表现与OpenAI的最强模型相当,部分任务甚至更优。例如,32B的蒸馏模型在数学题上的正确率超过94%,远高于同类模型。原创 2025-02-24 16:27:30 · 901 阅读 · 0 评论 -
DeepSeek-R1:通过强化学习激励大语言模型的推理能力
近年来,大语言模型(LLMs)正在经历快速的迭代和进化,并正在逼近通用人工智能(AGI)。最近,后训练已成为完整训练流程中的一个重要组成部分。研究表明,它可以提高推理任务的准确 性,与社会价值观保持对齐,并适应用户偏好,同时相较于预训练所需的计算资源相对较少。在推理能 力方面,OpenAI 的 o1 系列模型通过增加思维链推理过程的长度,首次引入了推理时扩展的方法。这种 方法在数学、编程和科学推理等多种推理任务中,取得了显著的进步。然而,有效的测试时扩展仍然是 社区面临的一个未解问题。原创 2025-02-24 15:14:34 · 1284 阅读 · 0 评论 -
使用Ollama搭建本地DeepSeek
本文将给展示Ollama+AnythingLLM本地知识库部署全过程。原创 2025-02-07 15:42:27 · 3423 阅读 · 0 评论 -
使用gpt4all本地部署deepseek过程
• 进⼊gpt4all官⽹: https://gpt4all.io• 选择适合的系统版本: Windows/macOS/Linux按常规软件安装步骤 完成安装 即可。原创 2025-02-07 15:10:51 · 897 阅读 · 0 评论 -
如何使用大模型构建知识库,面试偷偷搜索
你是否有这样的苦恼,想将自己辛辛苦苦总结的一些笔记在面试的时候使用上,但是太多了,没法查找,知道大模型可以帮你解决这个问题,但是又不会搭建,今天,它来了,闫哥帮你整理了一个,阿里云的百炼大模型,只需5分钟,轻松搞定!原创 2025-01-16 09:51:44 · 745 阅读 · 0 评论