- 博客(1018)
- 收藏
- 关注

原创 DeepSeek 入门到精通!(清华大学版)
今天给大家推荐一份清华 DeepSeek 使用手册,真的好好用~~清华大学团队出品的 DeepSeek 学习手册,深入解析国产开源 AI DeepSeek 的强大功能,让你从入门到精通,轻松掌握 AI 高效玩法!真的太强了!完整报告104页,文章长度有限无法完整展示,完整资料已经打包放到了网盘,需要的同学自取我的DeepSeek部署资料已打包好(自取↓)但如果你想知道这个工具为什么能“听懂人话”、写出代码 甚至预测市场趋势——答案就藏在大模型技术里!❗️为什么你必须了解大模型?
2025-02-10 16:27:46
3189

原创 保姆级实战教程:安装部署私有化大模型,并投喂数据
想要部署属于自己的大模型,会不会很困难?其实不是的,现在是越来越简单。潘哥今天就做一个简单的示范,让大家都能轻松搞定在自己的电脑哦上,本地化部署并运行私有化大模型,并且为我们自己的大模型投喂数据。这样,就可以建立自己的数据仓库,没错,就可以定制垂直行业或细分领域的私有化大模型了。酷~~~首先,我们会用到Ollama,功能是运行大模型。Ollama是一款LLM也就是大型语言模型服务工具,可以极大简化在本地运行大语言模型,极大降低了使用大语言模型的门槛,而且是开源的哦。
2025-01-28 07:00:00
5683

原创 国产AI大模型「医疗十大应用场景」案例盘点,推动医疗健康领域智能升级
人工智能技术的浪潮正席卷全球,AI大模型以其卓越的数据处理能力和深度学习能力,正在成为医疗健康领域变革的关键力量。本文将深入探讨AI大模型在医疗十大场景中的创新实践,展示其提升医疗服务效率、赋能临床决策、推动行业智能化转型的广阔前景。基于海量医疗数据,辅助临床诊断决策AI大模型通过分析海量医疗数据,能够辅助医生进行更准确的诊断。例如,百度灵医大模型利用其强大的数据处理能力,通过API或插件嵌入的方式,在200多家医疗机构中展开应用,显著提升了诊断的准确性和效率。
2024-12-27 11:24:15
6276

原创 七款国产AI大模型:Kimi,智谱清言,通义千问,文心一言,豆包,天工AI,讯飞,各自的优缺点是什么?
优点:Kimi这货,免费还能多平台支持,不光能实时联网,处理长文本也不带喘的,简直就是程序员的贴心小棉袄啊。缺点:不过呢,这家伙在特定领域翻译上就有点儿不太行,有时候还会抽风宕机,咱也不知道它为啥这么脆弱。优点:智谱清言是清华系的,不光会码代码,还能画图表,简直就是学霸中的学霸。尤其是它的多模态处理和图片理解能力,真心厉害。缺点:不过,别太指望它啥都懂,遇到特别复杂或者前沿的东西,它有时候也会掉链子。优点:阿里云的招牌产品,超大规模,能聊会说,还能处理多语言,厉害得不得了。
2024-12-12 16:24:48
6062

原创 什么是算法工程师?算法工程师有前景吗?
什么是算法工程师?算法工程师说目前最炙手可热的岗位。虽然算法工程师一直被频频提及,但是许多人对这个岗位的了解还知之甚少。那么算法工程师究竟是做什么的?前景怎么样呢?下面我们来一起解开这个高薪技术岗位的神秘面纱!
2023-10-02 08:15:00
2976
原创 垂直类AI Agent智能体开发指南
随着大模型的不断发展与普及,很多人已经明显体会到,大模型LLM在简单的办公场景应用已经非常成熟,但在一些复杂的业务场景,却很难落地应用。要想实现这一目标,需要很多专业的技术支持。由此,催生了大量AI Agent的需求,但是很多人对Agent的理解依旧停留在过去,实际上技术生态的不断发展完善,已经进入到了新的形态。随着Deepseek-R1的开源,使得很多传统公司有机会自己部署大模型,近距离使用高性能AI后,改变了很多人的观念。
2025-04-03 10:56:29
708
原创 AI大模型·白皮书 | 大模型2.0产业发展报告——商业落地创涌而现
产业生态方面,报告详细阐述了个人大模型和企业大模型的应用场景,从智能个人助理到企业智能体,展示了大模型如何重塑生产力与生产关系。报告还展望了大模型的未来发展趋势,包括去概率化模型、目标驱动架构及与其他技术的深度融合,预示着大模型将引领新一轮的产业变革与社会进步。通过深入分析大模型2.0的内涵与价值,报告为读者呈现了一个智能化、高效化的未来蓝图,为产业界和学术界提供了宝贵的指导与启示。同时,科技巨头的投资热潮和人才需求持续增长,反映了大模型技术在各行业的深远影响。
2025-04-03 10:05:45
226
原创 如何正确使用 DeepSeek,并总结最有效的万能提问模板。(附详细教程)
先来教大家怎么使用,先下载注册①电脑版:网页搜索DeepSeek,打开网页注册。②手机版:手机应用商店搜索DeepSeek,下载注册。提示一下:平台公告显示,近期遭遇网络攻击,当前无法注册,预计几天后恢复正常。与其他AI工具相比,它的最大优势在于引入了深度思考功能——R1模型,能够模拟人类思维并提供答案。①与GPT-4相比,DeepSeek更智能,能更精准地理解问题,无需过多描述。例如,查询海南三亚的旅游线路、景点、美食及回程机票价格,直接提问即可,AI将提供详细且实用的答案,胜过自制的旅游攻略。
2025-04-02 14:30:38
642
原创 一文速通这些概念:智能体、LLM、RAG、提示词工程
一种基于LLM(LargeLanguage Model)的能够感知环境、做出决策并执行行动以实现特定目标的自主系统。与传统人工智能不同,Al Agent 模仿人类行为模式解决问题,通过独立思考和调用工具逐步完成给定目标,实现自主操作。通用智能体平台以Agent为核心技术驱动,构建通用智能体平台,通过在智能体感知、记忆、规划和执行各关键环节的能力攻关,以适应不断变化的实际业务和日常办公需求,提供更加个性化和精准的服务,并助力工程人员解放脑、解放手、想的更全、做的更准,共同推动了其在更多复杂场景下的应用。
2025-04-02 14:27:39
609
原创 深度解析Deepseek蒸馏技术,理解DeepSeek为何如此强大
DeepSeek的蒸馏技术基于知识蒸馏(Knowledge Distillation, KD)渐进式分层蒸馏体系分为三个阶段:结构蒸馏:迁移教师模型的注意力机制架构,保留95%的架构特性,提升推理速度2.3倍。特征蒸馏:对齐教师模型与学生模型的隐层表征,优化中间层特征传递,提升任务准确率12.7%。逻辑蒸馏:通过强化学习策略优化决策路径,将推理成本降低至原模型的1/8,同时保持90%以上的准确率。两阶段蒸馏法教师模型:基于大模型(如R1-70B)提取复杂任务(数学、代码生成)的推理能力。
2025-04-01 14:29:02
553
原创 备战秋招!大模型微调面试集锦~
32.1 大模型训练loss突刺是什么?32.2 为什么大模型训练会出现loss突刺?32.3 大模型训练loss突刺 如何解决?一般 n B的模型,最低需要 16-20 n G的显存。(cpu offload基本不开的情况下)vicuna-7B为例,官方样例配置为 4*A100 40G,测试了一下确实能占满显存。128,max length 2048)当然训练时用了FSDP、梯度累积、梯度检查点等方式降显存。
2025-04-01 14:20:53
850
原创 DeepSeek火的秘决是什么,它到底是什么东西?
DeepSeek 是一款基于深度学习技术的大型语言模型(LLM),由国内团队开发,旨在通过智能化的自然语言处理和数据分析能力,为用户提供多场景的解决方案。DeepSeek 计划进一步优化多模态能力(如整合图像和语音处理),并扩展至自动驾驶、智慧城市等新兴领域。其开源策略和低成本优势将持续推动行业智能化转型。用户可通过其官方平台(如蓝耘智算)注册并调用API,体验多样化功能。我的DeepSeek部署资料已打包好(自取↓)
2025-03-31 15:52:52
1039
原创 如何写好AI提示词:指南&指北&Prompt案例
在人工智能时代,掌握如何与AI工具(如ChatGPT、DALL-E、Midjourney等)有效交互,已经成为一项必备技能。而这一切的核心,就在于如何编写高质量的AI提示词(Prompt)。本文将为你详细介绍如何从入门到精通,逐步提升你的提示词技巧,让AI更好地理解并满足你的需求。首先,你需要明确你希望AI完成什么任务。是生成文本、回答问题、创作图片,还是进行数据分析?明确目标是编写有效提示词的第一步。使用具体、清晰的描述代替笼统的表述。模糊的提示词会导致AI生成不相关或不符合预期的结果。为AI指定一个角色
2025-03-31 15:50:46
1125
原创 DeepSeek MoE架构如何实现计算量降低60%
DeepSeek的混合专家(MoE)架构是一种高效的语言模型架构设计,通过将一个大型语言模型分解为多个小型专家模型,并在训练和推理过程中进行并行计算,从而有效降低整体计算量。这种架构的核心优势在于其强大的并行能力,能够显著提升模型的训练效率和推理速度。通过优化计算资源的分配和减少冗余计算,MoE架构可以实现计算量的显著降低,具体来说,DeepSeek的MoE架构在某些模型规模下可以将计算量减少约60%。这项技术优势源于以下几个关键设计特点。
2025-03-29 11:47:42
311
原创 一文汇总:LLM应用到推荐系统的各类玩法总结
通过这种用CTR预估模型embedding作为prompt的方式,实现ID的CTR模型和LLM的CTR模型对齐的目标。将多种推荐系统相关的任务,完全转换成基于文本的prompt,各类型任务的prompt如下,user和item以id形式作为输入,外加其他文本相关的描述信息或特征信息。我自学没有方向怎么办?这种方式的核心建模思路是,将原来基于ID的推荐模型,转换成基于文本的推荐模型,所有特征全部文本化,可能会保留部分ID Token,然后构建Transformer文本模型,进行文本编码和目标预测。
2025-03-29 11:27:36
537
原创 深度测评:DeepSeek V3如何让我的运维工作量减少50%
在Linux运维的世界里,我们每天都在和复杂的系统、海量的日志、繁琐的命令打交道。每一次故障排查、每一行代码编写、每一次系统优化,都需要精准的信息和高效的支持。但你是否还在为以下问题烦恼?:系统报错,却要在海量文档和论坛中寻找解决方案,时间都浪费在了搜索上。:复杂的Shell命令,参数总是记不住,反复查询却找不到精准答案。:Linux领域日新月异,新技术、新工具层出不穷,学习新知识总是跟不上节奏。别担心,问小白DeepSeek V3来帮你解决这些痛点!
2025-03-28 11:02:39
798
原创 国产五大AI模型哪家强?DeepSeek、豆包、Kimi、智谱清言、通义千问深度解析!
今天我们来聊聊当下最火的五款国产AI大模型——它们各有千秋,有的擅长专业分析,有的专攻娱乐互动,还有的靠“长文本”出圈……究竟谁更适合我们的需求?看完这篇就懂了!DeepSeek是深度求索推出的大语言模型,堪称2025年AI界的“黑马”。它推理能力超强,表现和GPT-4不相上下。春节期间的爆火,能吃透问题,给出精准答案。比如搞学术研究,我们问专业领域的复杂问题,它可以快速翻找资料,整理出关键信息,条理清晰地解答,帮我们省下不少时间。写论文时,还能帮着生成大纲、分析文献综述。完全开源,支持本地部署,
2025-03-28 10:57:14
1338
原创 DeepSeek VS ChatGPT,到底谁更厉害?
DeepSeek(深度求索)与ChatGPT作为生成式AI领域的代表产品,在技术架构、应用场景及行业落地等方面存在显著差异。以下从技术差异和行业案例两个维度展开分析:
2025-03-27 11:13:13
974
原创 大模型科普:微调(Fine-tuning)与RAG(Retrieval-Augmented Generation)
微调是指在大规模预训练模型的基础上,使用特定领域或任务的数据对模型参数进行进一步调整,使其适应新的任务需求。例如,用医疗数据微调通用语言模型,使其擅长回答医学问题。
2025-03-27 11:09:28
702
原创 大型语言模型 (LLM) 入门必看
大模型(Large Language Model, LLM)是一种基于深度学习的自然语言处理模型,通过海量文本数据的预训练学习语言规律,具备理解、生成和推理文本的能力。参数规模庞大:通常包含数十亿至数千亿参数(如GPT-3的1750亿参数)。基于Transformer架构:依赖自注意力机制处理长文本序列,显著提升并行计算效率。多阶段训练流程:包括预训练(无监督学习)、微调(有监督学习)和RLHF(基于人类反馈的强化学习)。起源早期阶段。
2025-03-26 11:19:06
629
原创 DeepSeek及V3/R1系统区别与应用案例
DeepSeek V3与R1通过差异化定位覆盖了从通用任务到专业推理的全场景需求。V3以高性价比和快速响应见长,而R1凭借推理能力突破在复杂领域表现卓越。两者在金融、医疗、办公等行业的实际应用案例,展示了AI技术如何提升效率与决策质量。未来,随着开源生态和云服务的进一步扩展,其应用潜力将持续释放。我的DeepSeek部署资料已打包好(自取↓)
2025-03-26 10:10:49
819
原创 深度解析DeepSeek蒸馏技术:如何让AI模型更轻、更快、更强?
DeepSeek蒸馏技术是一种基于知识蒸馏的模型压缩方法,旨在将复杂的大型模型(教师模型)的知识迁移到更小、更高效的模型(学生模型)中。与传统的知识蒸馏相比,DeepSeek蒸馏技术通过引入多任务学习、自适应蒸馏机制和数据增强等策略,显著提升了学生模型的性能和泛化能力。
2025-03-25 11:50:13
643
原创 AI产品经理:100道面试题,你能聊多少?
接下来是进阶篇,你将掌握RAG、Agent、Langchain、大模型微调和私有化部署,学习如何构建外挂知识库并和自己的企业相结合,学习如何使用langchain框架提高开发效率和代码质量、学习如何选择合适的基座模型并进行数据集的收集预处理以及具体的模型微调等等。最后呢,会给大家一个小福利,课程视频中的所有素材,有搭建AI开发环境资料包,还有学习计划表,几十上百G素材、电子书和课件等等,只要你能想到的素材,我这里几乎都有。所以我综合了大模型的所有知识点,给大家带来一套。我们这套大模型资料呢,会从。
2025-03-25 11:48:01
846
原创 你的 RAG 为何会“翻车”?如何解决?揭秘背后三大致命缺陷!
RAG(检索增强生成)它把检索系统和生成式 AI 结合起来,让 AI 回答得更准确、更贴合上下文。和普通的大语言模型(LLM)不同,RAG 不只是依赖训练时学到的知识,而是能实时从外部信息源查找内容,并用这些信息来生成更可靠的回答。RAG 的核心组成负责从外部数据源提取相关信息,确保 AI 的回答既准确又及时。检索做得好,AI 的输出质量就高;如果检索设计不合理,可能会导致无关答案、幻觉(AI 瞎编)或数据缺失。由大语言模型(LLM)来处理用户提问,并结合检索到的内容生成回答。
2025-03-24 14:00:10
548
原创 AI大模型·白皮书 | 阿里云:2025年人人懂AI之从机器学习到大模型报告.pdf
报告由刘军民编写,旨在为 AI 技术爱好者提供启蒙,详细介绍了 AI 从基础到前沿应用的知识,涵盖机器学习、深度学习、神经网络、AIGC 及大模型等方面,探讨了 AI 技术在实际应用中的问题与挑战,并提供了实践指导。
2025-03-22 16:51:10
433
原创 AI大模型·白皮书 | 2025年DeepSeek:AI赛道的超级引擎报告(160页)
R1模型更是通过纯强化学习实现了复杂推理能力,训练过程分为三个阶段,包括R1 Zero的强化学习训练、冷启动数据与推理能力增强以及最终的R1模型训练,还通过蒸馏技术提升了其他开源模型的性能。秉持“求是创新”精神,平衡创新与商业化,既注重技术研发,又关注市场需求。《DeepSeek:AI赛道的超级引擎》由InfoQ极客传媒与极客时间联合出品,多位专家从多维度深入剖析了DeepSeek,涵盖技术突破、组织文化、开源策略、人才竞争、商业化等关键领域,展示其在AI领域的卓越影响力与发展潜力。
2025-03-22 16:23:25
352
原创 大模型如何如何赋能军事演训?具备哪些关键优势?【大模型国防应用】
舰船知识”形成了“以为使命,业务、技术聚变演进,三位一体”的发展格局。“理论创新研究部”是“舰船知识”孵化出的,系统而全面地研究“形成了以“根源动因、决策中心、穿透层垒、数理建模”为特色的宏观形势研判、重大事件预测、战略策略制定、战争筹划设计、战略规划评估、体系评估设计、装备概念创新等方面的独创理论方法和技术体系。我们坚持“超前发布预测、敢于迎接检验”,并且实现了“”的傲人成绩。2016年中期,预判特朗普当选美国总统,通过“对美国军工利益集团对其政治决策影响的建模研究”。2022年,
2025-03-22 15:49:02
900
原创 李开复:超大模型预训练逐渐寡头化,国内将收敛至 DeepSeek、阿里、字节三家
3 月 20 日,零一万物 CEO、创新工场董事长李开复博士接受了彭博社的专访。在访谈中他表示,DeepSeek 爆红出圈给整个中国大模型行业完成了实质意义上的市场认知教育,随着模型性能的提升与推理成本的下降,2025 年 AI-First B 端、C 端应用都将迎来爆发。另一方面,各地政府也对大模型展现出浓厚的兴趣,都在积极探索如何将 AI 应用到当地优势传统产业中,用产业大模型打造“新质生产力”,进而促进实体经济的增长。
2025-03-22 14:31:28
1289
原创 从直觉到深思:推理大语言模型综述
在人工智能领域,模拟人类的思维方式一直是研究的核心目标之一。人类的思维可以分为两种模式:快速、直觉的“系统1”和缓慢、深思的“系统2”。近年来,大型语言模型(LLMs)在“系统1”式的快速决策中表现出色,但在需要复杂推理的“系统2”任务中却显得力不从心。然而,随着OpenAI的o1/o3和DeepSeek的R1等推理型LLMs的出现,这一局面正在发生改变。这些模型不仅在数学和编程等领域展现了专家级的表现,还展示了类似人类的认知能力。
2025-03-22 11:53:09
696
原创 DeepSeek系列大模型:各版本区别详解
DeepSeek,作为人工智能领域备受瞩目的语言模型,自发布以来,凭借其强大的自然语言处理和编码能力,吸引了众多AI技术爱好者和开发者的关注。从V1到R1,DeepSeek系列不断迭代优化,逐步增强了对不同任务的处理能力。今天,我们就来详细解析DeepSeek各个版本的区别,为您呈现其技术演进的精彩历程。
2025-03-22 11:45:30
1278
原创 三次字节面试,都折在RAG上了
RAG(Retrieval Augmented Generation,检索增强生成 )方法是指结合了基于检索的模型和生成模型的能力,以提高生成文本的质量和相关性。该方法是Meta在2020年发表的文章《Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks》中提出的,该方法让LM(Language Model,语言模型)能够获取内化知识之外的信息,并允许LM在专业知识库的基础上,以更准确的方式回答问题。
2025-03-21 14:04:59
960
原创 DeepSeek 部署指南:公网还是本地?哪个版本合适?费用?一文搞懂!
最近,DeepSeek 超火,好多企业都忙着给它做私有化部署呢,但还有些企业在那儿犹豫不决,不知道咋选。今天咱就好好唠唠这个事儿,帮大家做出最适合自己的选择!
2025-03-21 10:18:32
746
原创 当AI成为标配后,新时代的产品经理需要具备哪些能力?
因为产品跟业务是密不可分的,产品经理在某一个行业里的积累越深厚,也就印证着他的业务认知,业务的 know how 会越精准,这也是很多公司选择候选人的一个方式,会以这种方式来产出JD,找到相应的行业经验丰富的产品经理。PC时代,比如说像宝洁的产品经理,主要承担的角色是需求分析师,包括后期的像IBM、 Oracle 的软件类产品经理,也是把销售拿到的客户需求,拿到团队内部进行分析,然后转化成研发可以落地的产品语言,所以这个阶段的产品经理,更像是一个项目协调者的角色,思考和行动的占比,行动会多于思考。
2025-03-20 14:29:17
612
原创 23张PPT搞懂DeepSeek核心技术!
在人工智能领域,DeepSeek模型以其卓越的性能和创新的技术架构,成为2025年备受瞩目的焦点。DeepSeek不仅在自然语言处理(NLP)任务中表现出色,还在多个行业实现了落地应用,推动了智能大数据技术的发展。本文将详细解析DeepSeek模型的训练优化及数据处理的技术精髓。腾讯公司通过发布23张精心制作的PPT,向公众全面揭秘其旗下AI大模型DeepSeek的核心技术。这一举措旨在让技术爱好者、专业人士和从业者更深入地了解DeepSeek的技术精髓,并启发更多关于人工智能创新发展的思考与探索。
2025-03-20 14:24:45
580
原创 从模型到应用:大语言模型生态系统完全指南
模型运行层是大模型应用生态中的关键基础设施,负责将庞大的语言模型高效部署到实际生产环境中。随着大模型参数规模的不断扩大(从数十亿到数千亿不等),如何高效运行这些模型成为一个巨大挑战。模型运行层通过创新的系统设计和优化技术,解决了推理延迟、吞吐量、内存占用和成本效益等核心问题,使大模型能够实际服务于各类应用场景。
2025-03-19 13:52:31
664
原创 DeepSeek+dify 本地知识库:高级应用Agent+工作流
工作流通过将复杂的任务分解成较小的步骤(节点)降低系统复杂度,减少了对提示词技术和模型推理能力的依赖,提高了 LLM 应用面向复杂任务的性能,提升了系统的可解释性、稳定性和容错性。一个完整的工作流,必须具备开始和结束两个节点。Chatflow:面向对话类情景,包括客户服务、语义搜索、以及其他需要在构建响应时进行多步逻辑的对话式应用程序。Workflow:面向自动化和批处理情景,适合高质量翻译、数据分析、内容生成、电子邮件自动化等应用程序。变量。
2025-03-19 13:00:29
1235
原创 DeepSeek应用最佳实践之蒸馏模型
经过蒸馏的模型在推理基准测试中取得了令人印象深刻的结果,部分结果优于GPT-4o和Claude-3.5-Sonnet等较大的模型, 比如 DeepSeek-R1-Distill-Qwen-32B在AIME 2024上达到72.6%的Pass@1, 在MATH-500上达到94.3%的Pass@1,表现明显优于其他开源模型。最后呢,会给大家一个小福利,课程视频中的所有素材,有搭建AI开发环境资料包,还有学习计划表,几十上百G素材、电子书和课件等等,只要你能想到的素材,我这里几乎都有。老师,这个地方我不会啊。
2025-03-18 14:55:25
799
原创 大语言模型学了个寂寞?工作依旧举步维艰!
别再让大语言模型的潜力白白浪费,现在就抓住机会,开启你的高效学习之旅,用知识武装自己,在职场和学术的赛道上实现弯道超车!最后呢,会给大家一个小福利,课程视频中的所有素材,有搭建AI开发环境资料包,还有学习计划表,几十上百G素材、电子书和课件等等,只要你能想到的素材,我这里几乎都有。在做这套教程之前呢,我就曾放空大脑,以一个大模型小白的角度去重新解析它,采用基础知识和实战项目相结合的教学方式,历时3个月,终于完成了这样的课程,让你真正体会到什么是每一秒都在疯狂输出知识点。我们这套大模型资料呢,会从。
2025-03-18 14:45:13
746
原创 一文读懂:医疗场景下各版本DeepSeek部署&应用攻略
自2025年春节以来,DeepSeek已经在超过100家医院落地,大模型技术在提升医疗质量和效率方面发挥了关键作用。然而,目前大多数医院对大模型仍存在疑惑,对其不同算力版本、智能体应用、硬件支持等缺乏足够的了解。为此,CDSreport围绕医疗场景下的大模型部署、应用等话题,开展系列分析报道。本期将围绕DeepSeek不同版本在院内的选择,从技术特征、场景匹配、部署方案等方面展开分析。
2025-03-17 16:17:59
1042
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人