LLM
文章平均质量分 95
大语言模型(LLM)是基于海量文本数据训练的深度学习模型。它不仅能够生成自然语言文本,还能够深入理解文本含义,处理各种自然语言任务,如文本摘要、问答、翻译等。
2023年,大语言模型及其在人工智能领域的应用已成为全球科技研究的热点,其在规模上的增长尤为引人注目,参数量已从最初的十几亿跃升到一万亿。
正在走向自律
(1)荣誉与身份:2024年度优快云博客之星TOP71、优快云博客专家/全栈领域优质创作者、阿里云开发者社区专家博主、华为云.云享专家!全网中文IP:正在走向自律
(2)领域专长:人工智能、AI大模型、数字人、Java、Python、服务器管理、第三方支付等!
(3)创作理念:通过分享 IT 行业的专业见解、案例分析和实用技巧,帮助读者更好地了解 IT 领域的发展动态和应用实践!
(4)粉丝支持:感谢全网3万+粉丝的关注与支持,我会继续努力,带来更多优质内容!
(5)座右铭:创作之路漫漫其修远兮,吾将上下而求索!
(6)关注交流:微信公众号《正在走向自律1》,交流技术心得,领取技术干货!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
豆包编程模型Doubao-Seed-Code深度体验,从零开始构建全栈项目的完整指南
本文详细介绍了火山引擎豆包编程模型(Doubao-Seed-Code)的实践体验。作为国内首个支持视觉理解能力的编程模型,它在TerminalBench等测试中表现优异,且使用成本仅为国际同类产品的十分之一。文章从环境配置入手,系统测试了该模型在视觉转换、复杂业务逻辑处理等多个场景的能力。在实战测试中,模型生成的React+TypeScript代码质量出色,数据库设计考虑周全,NestJS后端API实现规范,充分展示了其对现代开发实践的深度理解。此外,文章还提供了前端性能优化和数据库查询优化的具体建议。原创 2025-11-22 23:52:59 · 10999 阅读 · 65 评论 -
智谱GLM-4.6/4.5深度解析:ARC三位一体的技术革命与国产模型崛起
智谱AI在2025年推出GLM-4.5/4.6系列大模型,采用创新的"ARC"三位一体能力架构(智能体、推理、编码融合),实现技术突破:1. 架构上采用深度优化的MoE设计,通过三阶段训练和自研Slime强化学习框架提升性能;2. GLM-4.6在编码能力上超越国际标杆,实现国产芯片高效部署;3. 提出"模型即场景"理念,探索智能体协同群新范式。该系列在12项基准测试中取得国产第一、全球第三的成绩,同时通过token优化和国产化部署显著降低成本。原创 2025-10-27 11:44:51 · 1923 阅读 · 53 评论 -
实测AI Ping,一个大模型服务选型的实用工具
试用AIPing平台体验大模型服务性能数据测评,为AI开发者提供多维度参考。该平台通过实时监测帮助开发者对比分析不同供应商的性能、价格及稳定性,优化大模型服务选择。原创 2025-09-17 13:38:37 · 7732 阅读 · 88 评论 -
企业微信 + 豆包新模型:企业微信API对接文档【可向微信用户发消息】
本文介绍了一套基于企业微信API和豆包大模型的智能自动回复系统,通过轻量级Flask网关实现消息的闭环处理。该系统支持7×24小时自动客服,适用于金融、教育、零售等多场景,显著降低人力成本并提升用户体验。文章详细解析了企业微信API接口、豆包模型的技术特性与优势,提供了从环境搭建到代码实现的完整开发指南,包含文本/图片/文件消息的发送示例及异步优化方案。本系统已投入实际项目应用,具有高效、稳定、可扩展等特点。原创 2025-08-22 23:57:22 · 4908 阅读 · 11 评论 -
同样用豆包,别人效率10倍的秘密,全在这!
摘要:同样用豆包 AI,效率却可差 10 倍:高效者深挖功能、精准提问、跨界创新;低效者浅尝辄止、模糊依赖、场景单一。本文用学生刷题、教师备课、科研读文献三组真实案例拆解差距根源,并给出“功能全览-提问模板-场景拓展”三步提速策略,附 3 段可直接运行的经典代码示例与 15 组高频关键词详解,帮你把豆包用到飞起。原创 2025-08-22 23:52:44 · 6562 阅读 · 3 评论 -
GPT-5发布会:AI新纪元的启幕还是旧章的延续?
GPT-5 发布会展示了融合 GPT 与 o 系列模型的新架构,数学 AIME 94.6%、编程 SWE-bench 74.9%,价格低至 0.05$/M token,并推出个性化语音、日历助理。虽被质疑缺乏颠覆创新,但已重塑 AI 竞争格局,推动医疗、教育、编程变革。文末给出免费体验流程及实测案例。原创 2025-08-09 15:01:39 · 6172 阅读 · 95 评论 -
DeepSeek和Kimi结合,3分钟制作PPT,很强!
本文详细介绍了企业微信API对接的完整流程,涵盖从环境搭建到功能实现的全过程。主要内容包括:1)获取企业微信第三方token;2)使用Docker部署应用环境;3)通过二维码验证实现登录授权;4)核心功能接口实现:获取用户列表(支持分页)、单发消息、按标签群发消息;5)源码解析与关键代码示例。文档提供了完整的HTTP接口调用方式和参数说明,并附有详细的伪代码实现和中文注释。该方案经过实际项目验证,可帮助企业实现通过程序向微信客户发送消息提醒的功能,适用于客户管理和消息通知等场景。原创 2025-08-03 19:53:16 · 2060 阅读 · 19 评论 -
豆包新模型与 PromptPilot 实操体验测评,AI 辅助创作的新范式探索
摘要:在火山方舟厦门Meetup活动中,作者深入体验了豆包新模型与PromptPilot工具。PromptPilot作为智能Prompt优化工具,通过案例实操展现了其高效生成与优化提示词的能力,显著提升了豆包模型的输出质量。对比同类产品,二者在响应速度、内容稳定性及工具协同性方面表现突出。文章认为,此类AI工具的协同发展将推动智能化创作生态的演进,为开发者和创作者带来更高效的工作体验,并有望拓展至教育、医疗等更广泛的应用领域。原创 2025-08-05 17:08:36 · 22517 阅读 · 144 评论 -
手把手教你接入火山引擎DeepSeek-R1联网搜索API,开启智能探索新旅程
本文详细介绍了如何接入火山引擎DeepSeek-R1联网搜索API的过程。从注册火山引擎账号、进行实名认证、获取API Key和Bot-ID,到在Cherry-Studio中完成部署和测试,每一步都进行了细致说明。文章还总结了使用过程中的注意事项和常见问题解决方案。DeepSeek-R1凭借其强大的深度推理能力和联网搜索功能,可为开发者提供高效的信息获取和处理能力。原创 2025-06-11 16:06:45 · 4434 阅读 · 65 评论 -
探秘谷歌Gemini:开启人工智能新纪元
谷歌Gemini是人工智能领域的重要突破,作为基于Transformer解码器构建的大语言模型,它展现出卓越多模态处理能力,能无缝融合文本、图像、音频等多种数据形式。Gemini包含Nano(移动端)、Pro(数据中心)和Ultra(高复杂度任务)三个版本,在MMLU等基准测试中表现优异,部分指标超过人类专家水平。该模型在内容创作、智能客服、医疗和教育等领域具有广泛应用前景,如辅助诊断、个性化学习支持等。尽管面临复杂逻辑推理、实时知识更新等技术瓶颈及数据隐私等伦理挑战,Gemini仍代表着AI技术的重要性。原创 2025-05-26 23:25:53 · 2382 阅读 · 30 评论 -
探索Dify:开启大语言模型应用开发新时代
在AI技术迅速发展的背景下,Dify作为一款开源的大语言模型应用开发平台,为开发者提供了便捷高效的解决方案。Dify支持多种主流大语言模型,如GPT、Mistral、Llama3等,并通过低代码/无代码开发方式,降低了开发门槛。其核心特性包括多模型支持、丰富的功能组件和灵活的应用编排,适用于智能客服、内容生成、数据分析等多个应用场景。Dify通过可视化的界面和强大的RAG引擎,帮助开发者快速构建和优化AI应用,显著提高了开发效率和应用质量。与同类产品相比,Dify在API优先、灵活应用编排和插件生态都有优势原创 2025-05-23 17:01:35 · 2767 阅读 · 28 评论 -
智谱AI大模型免费开放:开启AI创作新时代
CogView-3-Flash是智谱AI推出的免费图像生成模型,能够根据用户指令生成符合要求且美学评分更高的图像。CogView-3-Flash主要应用于艺术创作、设计参考、游戏开发、虚拟现实等领域,帮助用户快速实现从文本到图像的转换需求。CogVideoX-Flash是智谱 AI 推出的免费的视频生成模型,继承CogVideoX自研的端到端视频理解模型,具备强大的视频生成能力。CogVideoX-Flash不仅支持文生视频,依据输入的文本描述精准地生成相应的动态视频内容;原创 2025-04-18 21:54:25 · 2018 阅读 · 17 评论 -
探索Maas平台与阿里 QWQ 技术:AI调参的魔法世界
本文介绍了蓝耘 Maas 平台在人工智能领域的表现及其核心优势,包括强大的模型支持、高效的资源调度和友好的操作界面。文章还探讨了蓝耘 Maas 平台与阿里 QWQ 技术的融合亮点及应用拓展实例,并提供了调参实战指南,最后对蓝耘 Maas 平台的未来发展进行了展望。原创 2025-03-15 17:31:25 · 2654 阅读 · 95 评论 -
AI大模型的战场:通用与垂直的较量
AI大模型的战场正在分化,通用与垂直的较量才刚刚开始。无论是通用大模型的广泛适用性,还是垂直大模型的专业优势,它们都在推动着人工智能技术的发展和应用。作为观察者和参与者,我们更应关注这场竞争背后的技术创新和市场动态,以期把握未来的发展趋势。在这个充满变数的赛点上,我个人更倾向于看好那些能够快速适应市场变化、提供定制化解决方案的垂直大模型。它们在特定领域的深耕,可能会带来更加精准和高效的服务,从而在竞争中占据一席之地。然而,这并不意味着通用大模型没有优势,它们在技术成熟度和创新能力上仍然具有不可小觑的潜力。原创 2024-06-12 22:55:23 · 1786 阅读 · 14 评论 -
OpenAI的ChatGPT-4和百度文心一言对比
文心一言和GPT-4作为当前人工智能领域的两个重要模型,各自在技术特点、应用场景和性能表现上都有其独特的优势和特点。随着技术的不断发展,我们期待这两个模型能够在推动社会进步和创新中发挥更大的作用。原创 2024-06-06 00:00:00 · 1987 阅读 · 0 评论 -
让大模型变得更聪明三个方向
确保训练数据的高质量和多样性是增强大模型泛化能力的关键。通过数据清洗、数据验证、多源数据收集、数据增强等方法,可以显著提高数据的质量和多样性。同时,结合无监督学习预训练、持续学习和更新以及与领域专家合作等策略,可以进一步提升大模型的泛化能力,使其在实际应用中表现更加出色。设计更高效的模型架构是使大模型变得更聪明的关键方向之一。通过模块化设计、混合专家模型、多层次注意力机制以及残差连接和归一化等方法,可以构建出具有更强表达能力和泛化能力的模型架构。原创 2024-05-26 22:55:58 · 986 阅读 · 0 评论 -
开源大模型与闭源大模型,你更看好哪一方?
初创企业和预算有限的企业可能更倾向于选择开源模型,而具有核心技术和独特算法的企业则可能更倾向于选择闭源模型。开源模型通过透明性和社区审查提供了更高的可验证性和安全性,而闭源模型则通过严格的安全规范和专有技术提供了更强的数据保护能力。对于需要高度安全性和稳定性的应用场景,闭源模型可能更加合适,因为它们通常由经验丰富的团队进行开发和维护,具有较高的可靠性和稳定性。在商业应用方面,开源大模型和闭源大模型各有其独特的优势和适用场景。在开源和闭源的选择中,我们可以根据具体的应用场景和需求来举例说明。原创 2024-05-26 22:21:02 · 1518 阅读 · 1 评论 -
AI大模型学习
在当前技术环境下,AI大模型学习不仅要求研究者具备深厚的数学基础和编程能力,还需要对特定领域的业务场景有深入的了解。通过不断优化模型结构和算法,AI大模型学习能够不断提升模型的准确性和效率,为人类生活和工作带来更多便利。原创 2024-03-25 15:44:56 · 1011 阅读 · 0 评论 -
分享8个免费的AI工具,对学习AI帮助很大
AI(Artificial Intelligence,人工智能)是指由人类创造的能够执行需要智能才能完成的任务的系统或机器。它包括了一系列技术和方法,旨在使计算机和机器能够模仿、延伸甚至超越人类的智能行为。本文分享8个免费的AI工具,排名不分先后。原创 2024-05-08 00:15:00 · 6623 阅读 · 0 评论 -
embedding介绍和常用三家模型对比
Embedding(嵌入)是一种在计算机科学中常用的技术,尤其是在自然语言处理(NLP)领域。在NLP中,embedding通常指的是将文本中的单词、短语或句子转换为固定维度的向量(vector)。这些向量代表了文本中的语义和上下文信息。原创 2024-05-07 00:15:00 · 3561 阅读 · 0 评论 -
LLM大语言模型原理、发展历程、训练方法、应用场景和未来趋势
LLM,全称Large Language Model,即大型语言模型。LLM是一种强大的人工智能算法,它通过训练大量文本数据,学习语言的语法、语义和上下文信息,从而能够对自然语言文本进行建模。这种模型在自然语言处理(NLP)领域具有广泛的应用,包括文本生成、文本分类、机器翻译、情感分析等。本文将详细介绍LLM大语言模型的原理、发展历程、训练方法、应用场景和未来趋势。原创 2024-04-30 22:36:34 · 8260 阅读 · 0 评论 -
Embeddings原理、使用方法、优缺点、案例以及注意事项
Embeddings是一种将高维数据映射到低维空间的技术,常用于处理自然语言处理(NLP)和计算机视觉(CV)任务。Embeddings可以将复杂的高维数据转换为低维稠密向量,使得数据可以更容易地进行处理和分析。本文将介绍Embeddings的原理、使用方法、优缺点、案例以及注意事项。原创 2024-05-07 00:00:00 · 2503 阅读 · 0 评论 -
使用LLaMA Factory来训练智谱ChatGLM3-6B模型
1. 项目背景开源大模型如LLaMA,Qwen,Baichuan等主要都是使用通用数据进行训练而来,其对于不同下游的使用场景和垂直领域的效果有待进一步提升,衍生出了微调训练相关的需求,包含预训练(pt),指令微调(sft)…请注意,由于LLaMA Factory和ChatGLM3-6B模型的细节可能会随着时间的推移而更新或变化,因此建议参考最新的官方文档。LLaMA-Factory QuickStart - 知乎。新建一个json文件,放到data目录下面。原创 2024-05-12 23:58:26 · 2122 阅读 · 24 评论 -
AI大模型学习
AI 大模型学习是指通过深度学习技术训练大规模的神经网络模型,以实现对复杂数据模式的学习和抽象表示。原创 2024-03-23 13:57:58 · 1206 阅读 · 0 评论 -
智谱ChatGLM3本地私有化部署(Linux)
如果你计划使用GPU进行模型训练和推理,你需要安装相应的GPU驱动和CUDA工具包,并确保你的GPU与智谱ChatGLM3兼容。上述两种方案的目的是让更多的用户能够体验到我们的模型,但无法进行二次开发,如果您准备深度使用我们的模型,我们建议按照以下方式安装。确保你的环境配置正确无误后,进行简单的测试和验证,确保智谱ChatGLM3可以正常运行。下载智谱ChatGLM3的模型文件,这些文件包含了预训练好的模型参数和配置信息。根据你的需求,修改智谱ChatGLM3的配置文件,包括模型路径、输入输出设置等。原创 2024-05-17 00:15:00 · 7733 阅读 · 6 评论
分享