- 博客(546)
- 收藏
- 关注

原创 盘点国产十大最实用的AI大模型!(深度解析)
在这个由数据驱动的时代,人工智能(AI)已经成为推动世界进步的超级引擎。从日常的语音助手到复杂的医疗诊断,AI的应用无处不在,它的影响力正以前所未有的速度扩展。今天我们来聊聊那些国产的AI大模型,深度盘点一下国产最实用的十大AI大模型百度文心大模型包含NLP(自然语言处理)、CV(计算机视觉)和跨模态大模型。在自然语言处理领域,文心ERNIE系列模型具有强大的小样本学习能力和基本推理能力。在计算机视觉领域,百度提出了基于视觉掩码技术的文心VIMER-CAE,具有强大的图像分割能力。
2024-12-10 14:08:23
7176

原创 我们为什么要用本地大模型?——坤叔的本地大模型入门指南
大模型,在2023年主要称之为大型语言模型(Large Language Models),是一种基于人工智能和机器学习技术构建的先进模型,旨在理解和生成自然语言文本。这些模型通过分析和学习海量的文本数据,掌握语言的结构、语法、语义和上下文等复杂特性,从而能够执行各种语言相关的任务。LLM的能力包括但不限于文本生成、问答、文本摘要、翻译、情感分析等。我们最熟悉的大模型,莫过于CHATGPT。但我们最常用的大模型,未必是CHATGPT。
2024-05-23 10:52:45
8393

原创 值得收藏!十大中国流行的AI大模型企业及平台汇总
在当今这个信息化迅速发展的时代,人工智能技术已经成为推动社会进步的重要力量。特别是在我国,AI大模型技术的发展速度令人瞩目,各种平台纷纷涌现,表现出强大的技术实力和广泛的应用前景。
2024-05-16 13:37:12
8828

原创 一文读懂 LLM 训练:从预训练到微调【大模型行业应用入门系列】
LLM Training 是指大型语言模型(LLM)的训练过程。作为一种采用超大规模数据进行预训练的深度学习模型,LLM 训练目标是培养出一个能够理解和生成自然语言文本的模型。在这个过程中,LLM 通过处理海量文本数据来学习语言的规律、语义和上下文关系等训练方式,可以获得丰富的语言知识和智能,从而使得能够自动理解和生成人类语言。通常而言,这种训练过程通常需要大量的计算资源和时间,以便模型能够充分地学习语言的各个方面。
2024-04-16 15:39:20
6578

原创 全民AI时代:手把手教你用Ollama & AnythingLLM搭建AI知识库,无需编程,跟着做就行!
本地运行大模型耗资源,需要选择较小的模型作为基础模型。在终端中运行时可能会出现 CUDA 错误,表示显存不足,导致提供的端口失效。中文支持不够完善。3. 文中提到的技术软件工具有:Ollama、Chatbox、Open WebUI、向量数据库、嵌入模型、本地模型 Gemma、AnythingLLM。
2024-04-10 11:10:50
8991

原创 一文吃透多模态:多模态大模型的探索 五大研究方向与十大应用领域!
理想中的多模态大模型具备跨模态的泛化理解和生成能力,其更符合人类感知世界的方式,其或能进一步打开AI能力的上限。产业界也在积极探索多模态大模型可行的技术路径,在多模态领域“复刻”大语言模型的成功。但目前多模态大模型的技术栈也尚未收敛,多模态学习和跨模态对齐仍为技术难点,未来产业发展仍有无限可能。在大模型兴起之后,产业也试图在图像、视频、音频等更多模态领域复现“Scaling Law”的成功,继续实现大模型的“智能涌现”。• 薪资上浮10%-20%,覆盖更多高薪岗位,这是一个高需求、高待遇的热门方向和领域;
2024-04-07 18:30:11
7138
原创 DeepSeek + AI 教学:思维导图、图片、视频、PPT制作如此简单!
随着人工智能技术的飞速发展,AI 工具正逐渐成为学术研究和教学辅助的重要力量。DeepSeek 作为一款强大的 AI 文本生成工具,可以帮助我们快速高效地完成各种文本创作任务。通过学习这些方法,老师们可以更轻松地制作教学资料,进行学术研究,并提升教学效果。
2025-04-01 10:36:58
286
原创 一文速通什么是AI Agent,Coze智能体怎么入门?
前段时间Manus的爆火,AI Agent的这个概念又引发了热议,也少不了拿manus和Coze这类智能体开发平台进行对比,同为智能体产品,其二者的设计理念,解决问题的模式却不相同,manus更偏向自主规划与执行,而Coze则需要人为参设定执行路径。作为AI的受益者,我们应该积极的看待这些技术的变化,无论AI Agent的形态如何,不管是Coze还是Manus,还是其它,一定要成为第一个学习和掌握并应用它的人,才能享受其第一波的红利机会。对有基础的小伙伴,最快的提升方式是,不断复刻案例,边做边学。
2025-04-01 10:33:28
462
原创 全新知识导向的 RAG 全栈技术综述
近期,中科大出品了一篇关于(Retrieval-Augmented Generation, RAG)的综述,全面介绍了RAG的、特性、挑战以及在不同领域的应用,并探讨了未来发展的。。(包括RAG学习和RAG框架)、时间线上还标记了语言模型领域的重要里程碑(如GPT-3、ChatGPT、GPT-4)。:是否在大型语言模型的背景下讨论RAG;:是否涵盖多模态RAG;:是否讨论RAG中的图结构化信息;:对高级RAG技术的覆盖范围;:是否涉及评估方法;:是否采用以知识为中心的视角。
2025-03-31 14:32:29
584
原创 DeepSeek MoE - 创新型的 MoE 架构
从 DeepSeek V3/R1 开始关注 DeepSeek 工作的人很容易认为 DeepSeek 大量的工作都是在工程上优化效率,但是回看 DeepSeek 过去一年的论文才会发现他们其实一直在模型架构和训练方法上做各种创新,而 V3 和 R1 只是在之前架构创新的基础上进行 Scale。DeepSeek MoE 这篇论文就介绍了 DeepSeek 在 MoE 架构上的主要创新,现在看上去也很有希望成为未来 MoE 架构的标准。先说一下 MoE 和传统的 Dense 架构的区别。
2025-03-31 14:27:56
257
原创 国产最强大模型DeepSeek V3装到Cursor,这波操作太香了!
说实话,作为一个天天和代码打交道的人,我是真的被DeepSeek V3香到了。不仅技术能力强,关键是对中文支持好,价格还便宜,简直就是为我们中国开发者量身定做的。如果你也在用Cursor,强烈建议试试这个配置。相信我,这绝对是目前最划算的AI编程助手方案了。等你们都配置好了,欢迎来跟我分享使用体验啊!最后提醒一下,API key一定要保管好,别泄露出去。好了,今天就分享到这里,希望对大家有帮助!我的DeepSeek部署资料已打包好(自取↓)
2025-03-28 10:33:45
460
原创 解析稳定率达99.99%!“大模型加速器2.0”助力AI打破“幻觉”
为了让行业“安心”使用大模型,知识库产品推出溯源功能,通过在“投喂”给知识库的Markdown及JSON文件中标记页码、坐标等空间位置信息,实现对句子、段落的精确溯源,为用户提供了一个快速检验的路径。以财务分析为例,大模型在多份高达上千页的财报文件中找到收入、利润等关键数据后,券商分析师可利用溯源功能定位原表格,对信息进行复核,防止错误、遗漏。图说:知识库对财报数据所在表格进行精准溯源目前,知识库组件已面向开发者开源,帮助其根据自身需要快速构建个性化行业知识库。
2025-03-28 10:30:38
753
原创 Windows系统本地部署DeepSeek详细教程
最近DeepSeek非常火爆,因其卓越的推理能力和低成本特性而广受欢迎,DeepSeek开源了部分模型,通过蒸馏技术可以将大模型参数压缩为更小的版本(如1.5B、7B等),显著降低对显存和计算资源的需求,这使得普通家用电脑也能部署,无需依赖高端硬件。本地部署不仅能规避网络延迟和隐私风险,还能根据需求定制模型功能,成为高效办公、学习研究的利器。此外,本地部署使数据完全存储于自有服务器或私有云,避免第三方平台的数据泄露风险,尤其适用于医疗、金融等涉及敏感信息的行业。
2025-03-27 10:16:52
726
原创 大语言模型(LLM)是什么?
大型语言模型(LLM)是一种基于深度学习的生成式人工智能模型,旨在通过处理海量文本数据理解和生成自然语言。规模庞大:通常包含数十亿至数千亿参数,如GPT-4(千亿级参数)、PaLM2等。Transformer架构:依赖自注意力机制(Self-Attention)和多头注意力(Multi-Head Attention)捕捉长距离语义关联,替代传统RNN和CNN的局限性。多任务能力:可执行文本生成、翻译、摘要、问答等多种自然语言处理(NLP)任务,并展现涌现能力(如上下文学习、逐步推理)。
2025-03-26 10:40:06
1001
原创 AI加速,DeepSeek的100个应用场景
在一个人工智能重塑世界的时代,我们正站在技术革命的十字路口。DeepSeek不再是一个简单的工具,而是化身千面的数字革新者,悄然渗透进人类文明的每个毛细血管。当您翻开这份应用图鉴时,即将见证的不仅是100个应用场景的罗列,而是一场正在发生的认知革命。从金融风控到基因解码,从智能制造到太空探索,DeepSeek正在突破人类想象的边界。它如同拥有量子触手的智能生命体,在医疗诊断室精准捕捉癌细胞的低语,在量子实验室解析微观世界的密码,甚至在敦煌壁画修复现场,用算法呼吸着千年文明的尘埃。
2025-03-26 09:40:24
757
原创 3000字看懂LLMs 的工作原理:从预训练到推理
大语言模型从预训练到后训练,再到推理和应对幻觉现象,经历了一系列复杂的过程。预训练让模型掌握了语言的基础规律,后训练使其能够适应特定任务和领域,推理过程则赋予了模型生成新文本的能力。然而,幻觉现象的存在也提醒我们,大语言模型并非完美无缺,它们的输出需要谨慎对待。尽管如此,大语言模型仍然是人工智能领域的一项重要成果,它们在许多领域都展现出了巨大的潜力和价值。随着技术的不断进步,我们有理由相信,大语言模型将变得更加智能、可靠和实用。
2025-03-25 10:25:07
582
原创 新人入门:大模型系列
大模型正在重塑各行业的生产与服务模式,其价值不仅在于技术突破,更在于与垂直场景的深度融合。随着开源生态完善(如DeepSeek、Qwen)和政策支持(如中国“人工智能+制造”计划),大模型的应用将加速从实验阶段迈向规模化落地。
2025-03-24 10:35:45
221
原创 DeepSeek R1本地化部署 Ollama + Chatbox 打造最强 AI 工具
安装后运行软件,在任务栏确认在右上角出现这只 小羊驼🦙 图标点击Search models 搜索框,第一条就是 deepseek-r1 模型。这里我们发现了多个不同大小的模型,文件大小适配不同的设备DeepSeek R1提供多个版本,参数量越大,模型通常越强大,但也需要更多的计算资源。比如1.5B代表有15亿个参数。运行模型很简单:确定模型后,复制这条指令到终端里当进度条跑满时,恭喜,你的电脑已经拥有了顶级的推理能力。
2025-03-24 10:33:30
807
原创 AI大模型·白皮书 | 金融大模型落地路线图研究报告(2024年)
报告指出,金融机构应用大模型前,需剖析自身在数据、人才、战略规划方面的就绪情况,挖掘不同业务场景下的能力需求,合理设计建设目标。在应用范式革新方面,深耕智能营销、风控等核心业务场景,提升金融管理服务效率,推动业务升级,优化服务体验,同时加强科技监管,建立评估体系。从发展趋势看,未来金融大模型将释放数据要素价值,建立数据使用机制,整合多源异构数据;践行绿色普惠发展,探索垂直领域应用场景,促进绿色金融和普惠金融深度融合,助力金融行业向更高效、更安全、更智能的方向迈进,实现金融科技与金融业务的持续深化融合。
2025-03-22 17:09:24
230
原创 「AI大环境下的企业级数据治理指南」:数据治理设计思路、数据治理建设实施方案、数据治理体系建设指南···
基于大模型的智能化数据探查功能可迅速识别多源异构数据的结构、类型与特征,智能推荐最优接入方式,并自动化生成接入任务,大幅提升数据集成效率,为数据治理筑牢基础。借助行业知识库与大模型的认知计算能力,可实现元数据自动标注、智能数据对标,推荐精准的数据质量规则,并建立实时监测机制,根据业务变化动态优化规则。和权益同时,还应加强跨部门、跨组织的数据协作,共同挖掘数据的潜在价值。因此,组织应建立数据质量管理体系,包括数据清洗、数据校验、数据标准化等数据预处理环节,以确保数据的准确性、完整性、一致性和时效性。
2025-03-22 16:49:19
541
原创 AI大模型·白皮书 | 《大模型组件漏洞与应用威胁安全研究报告》
主要针对大模型的语义操控突破安全限制生成违规内容、配置缺陷泄露敏感信息、Prompt注入利用输入劫持模型行为执行恶意指令等方面进行漏洞研究。,重点对模型推理优化部署、模型训练微调、模型应用框架、其他大模型相关组件工具进行漏洞分析;随着大模型架构复杂性持续提升,其面临的攻击面不断增多。
2025-03-22 16:09:28
281
原创 生物医药大语言模型发展现状与场景应用︱生物医药大语言模型
一、大语言模型融合制药专业知识,赋能药企质量管理二、从医学角度总结并点评已问世的中医药大语言模型三、大语言模型在医药健康领域的应用四、盘点已问世的15种中医药大语言模型五、盘点已问世的中医药大语言模型一、大语言模型融合制药专业知识,赋能药企质量管理(日立解决方案 ,日立解决方案)人工智能,尤其大语言模型,是全球关注的前沿热点,但其在医药领域的商业化应用场景,特别在CMC和生产质量领域,还缺乏成功案例。日立和识林自2023年开展合作,将日立解决方案在系统配置和数据管理的技术能力,结合识林在制药专业知识十多年的
2025-03-22 15:32:44
820
原创 AI产品经理必读:掌握「模型、算力、数据」三大要素,打造AI飞轮,实现业务破局
在这个“AI全面赋能”的时代,企业的竞争格局正悄然发生改变。掌握模型、算力、数据这三大关键要素,并让它们形成相互促进的飞轮,才能让AI持续驱动业务增长。对AI产品经理而言,这既是前所未有的挑战,也是无比宝贵的机遇。
2025-03-22 10:26:50
1062
原创 商机飙涨数十倍,大模型一体机爆火五大原因
春节开工后的这个月,国内最忙碌的工程师群体之一,可能要数做大模型一体机的了。几乎所有服务器、云厂商、大模型和垂类应用服务商,都在加班加点追赶研发进度。一些主流企业的商机。发布一体机的企业,也将超过百家。为什么一体机会在今年爆火?客户采购它用来做什么?一体机企业又在拼什么?
2025-03-22 10:21:36
795
原创 RAG在企业应用:场景深入与进阶策略
随着大语言模型(LLM)在对话与生成任务上的快速普及,Retrieval-Augmented Generation(RAG)成为解决大模型“幻觉”等短板的重要方案。通过将外部检索到的真实文档嵌入对话上下文,RAG确保了输出的准确性与可控性,在企业内的知识库问答、技术支持、报告生成等应用中备受关注。
2025-03-21 11:11:25
971
原创 DeepSeek R1大火的背后,聊聊推理大模型的核心-思维链
DeepSeek作为一款专注于推理能力的大模型,R1的推出标志着大模型技术从“生成”向“理解”和“推理”迈出了重要一步。而在这背后,“思维链”(Chain-of-Thought, CoT)的出镜率也飙升。它不仅是R1模型的核心技术之一,更是推动大模型实现复杂推理能力的关键。
2025-03-21 09:49:07
871
原创 DeepSeek + RAG: 让大模型更智能、更精准
在大模型应用中,**如何保证答案的准确性和实时性** 一直是一个难题。尽管 LLM(Large Language Models)具有强大的生成能力,但它们的知识存在 **时间局限性**,并且容易产生“幻觉”(hallucination)。为了解决这些问题,**RAG(检索增强生成)** 方案应运而生。在 RAG(检索增强生成)中,检索机制负责获取相关信息,而 LLM 负责生成最终答案。DeepSeek 作为国内领先的大模型之一,可以在 RAG 体系中作为生成部分,为检索增强的上下文提供自然、准确的回答。本文
2025-03-20 11:04:00
725
原创 Transformer与混合专家(MoE):大型语言模型的架构对比
Transformer与混合专家(MoE)代表了大型语言模型发展的两个重要阶段。Transformer以其简洁高效的架构奠定了NLP的基础,而MoE通过引入专家机制,进一步突破了性能和效率的瓶颈。尽管MoE在训练中面临专家均衡性等挑战,但通过路由器优化和容量限制等解决方案,它已成为构建更强大语言模型的重要工具。未来,随着技术的不断进步,MoE有望在更多场景中大放异彩,推动NLP领域迈向新的高度。
2025-03-20 10:53:58
1156
原创 多模态 LLM 的工作原理简述
多模态 LLM 是能够处理多种类型输入的大型语言模型, 多模态 LLM 可以接受不同的输入模态(音频、文本、图像和视频)并返回文本作为输出模态。多模态 LLM 的一个直观的应用场景是为图像生成描述,提供输入图像,模型会生成图像的描述,如下图所示。当然,还有许多其它应用场景。比如从 PDF 表格中提取信息并将其转换为 LaTeX 或 Markdown。构建多模态 LLM 有两种主要方法:统一嵌入解码器架构方法;跨模态注意力架构方法。
2025-03-19 14:51:50
1031
原创 从理论到实践:RAG、Agent、微调等6种常见的大模型定制策略
大语言模型(LLM)是基于自监督学习预训练的深度学习模型,训练数据量庞大、训练时间长,并且包含大量的参数。LLM在过去两年中彻底改变了自然语言处理领域,展现了在理解和生成类人文本方面的卓越能力。然而,这些通用模型的开箱即用性能并。LLM单独使用时无法回答依赖于公司专有数据或封闭环境的问题,这使得它们在应用中显得。由于从零开始训练一个LLM模型需要大量的训练数据和资源,这对于中小型团队来说基本不可行。因此,近年来开发了多种LLM定制策略,以便针对需要专业知识的不同场景调优模型。
2025-03-19 14:44:41
670
原创 DeepSeek火出圈,本地部署教程来了!
春节期间最火爆的新闻是DeepSeek,没有之一,这则消息足以震动全球。它是一款国产的开源大模型,APP登顶苹果中国区和美国区应用商店免费下载排行榜。其实早在去年12月份就发布了v3模型,但当时并不火,直到今年1月份发布了对标OpenAI-o1的推理模型r1,短短几天时间火爆全球。由于免费开源,且训练成本大幅下降的情况下达到差不多的效果,这在AI行业引发的广泛的关注和讨论,市场对以英伟达为首的「大力出奇迹」的训练方式产生了质疑,认为通过对模型的优化可以减少对高端芯片的需求,英伟达股价也因此暴跌。
2025-03-18 11:28:26
770
原创 “实习生也月入过万”,但这一行业严重缺人
市场对寻求AI人才的渴望,到了按图索骥的程度。晚点latepost曾在报道中记录过这样一个细节:当一位投资人循着AI论文上的名字一个个去拜访时,发现他们此前都与张一鸣单独见过面,其中包括尚未毕业的博士生。这是一个信号,意味着互联网大厂正在使用它们的最大能量挖掘AI领域的人才。不只是顶尖精英,对于任何一个处于快速爆发期的行业来说,支撑业务落地的基础岗位员工也会成为争夺的焦点。2月中旬,阿里巴巴AI To C业务开启大规模招聘,开放岗位达到数百个;几乎在同一时间,腾讯旗下AI助手腾讯元宝开启“热招”。
2025-03-18 11:25:39
634
原创 麻雀虽小五脏俱全,只需2 小时,在家就能训练 “大模型”!
最近AI圈又有大动作!一个名为MiniMind的开源项目爆火,它号称能让你用极低的成本和时间,亲手训练一个属于自己的大语言模型,今天就带大家深入探究一下这个神奇的项目。
2025-03-17 11:48:37
798
原创 搭建属于你的AI大脑:DeepSeek+RAGFlow保姆级教程
在AI的浪潮中,RAG(检索增强生成)技术正在掀起新的革命。它像一个聪明的图书管理员,能够从海量文档中精准提取信息,并生成自然流畅的回答。RAGFlow作为一款开源的RAG引擎,将复杂的AI技术封装成简单易用的工具,让每个人都能轻松搭建自己的AI知识库。它支持多种文档格式,能够从非结构化数据中提取知识,并提供清晰的引用来源,极大降低了生成内容的幻觉风险。无论你是企业客服、研究人员,还是普通用户,RAGFlow都能为你提供强大的知识管理能力。
2025-03-17 11:40:01
657
原创 如何完美解锁DeepSeek-R1的结构化输出能力(基于LangChain)?
结构化输出就是大模型在生成响应时,以一种有结构的规范化形式呈现,而不是自由文本。这种结构化的输出通常包括预定义的字段、标签、列表、表格、或者其他形式的组织化数据,而最常见也是最灵活的一种表达形式就是JSON。
2025-03-14 13:48:43
1282
原创 训练私有化AI大模型,你一定要会用RAG
RAG检索增强生成(Retrieval-Augmented Generation )是一种结合大语言模型(LLM)与外部知识库的技术,通过动态检索相关外部信息辅助模型生成更准确、可解释的答案。其核心目标是解决LLM(大语言模型)的三大局限:RAG通过“检索-增强-生成”三阶段实现:检索:从知识库中提取与用户问题相关的信息片段(如通过向量相似性搜索)。增强:将检索结果与用户问题结合形成上下文。生成:LLM基于上下文生成最终答案。RAG的架构分为 离线阶段(索引构建) 和 在线阶段(检索生成) 两部分
2025-03-14 11:59:18
1007
原创 Manus来了,AI大模型跨入应用时代,企业如何真正落地?
随着Manus AI等通用人工智能体(AI Agent)的发布,AI大模型的产业化应用正加速落地。从智能内容生成到精准营销推荐,AI正在深度赋能千行百业。然而,企业如何真正用好大模型?如何降低训练成本?如何结合自身业务场景高效应用AI?这一切的关键,在于私有化部署与行业数据积累。
2025-03-14 11:48:26
607
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人