
大模型
文章平均质量分 91
“AI前沿:大模型学习解码“ — 探索人工智能的深度与广度,订阅之后可以私聊博主进入微信粉丝群。
数据与算法架构提升之路
我是一名专注于AI和数据架构的技术专家,拥有扎实的编程与数学基础。在大数据框架重构和底层源码开发方面积累了丰富经验,擅长自动驾驶、数据架构和深度学习等领域的研究与实践。目前,我主要从事数据AI架构相关工作,并曾在新能源汽车行业积累了深厚的技术背景。对技术创新和持续学习充满热情,致力于推动前沿技术的应用与发展。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Dropout 在大语言模型中的应用:以 GPT 和 BERT 为例
Dropout是一种关键的正则化技术,广泛应用于GPT和BERT等大型语言模型(LLMs),通过随机丢弃神经元(典型概率为0.1)防止过拟合。在BERT中,Dropout作用于前馈网络、注意力机制和嵌入层;在GPT中则扩展到嵌入层、残差连接及序列摘要部分。其核心机制是训练时随机屏蔽神经元以增强鲁棒性,推理时关闭并缩放权重以保持输出一致性。相比L1/L2正则化和数据增强,Dropout直接修改网络结构,尤其适合参数庞大的LLMs,但需注意可能增加训练时间以及与批量归一化的兼容性问题。合理使用Dropout能显原创 2025-05-28 16:03:04 · 1334 阅读 · 0 评论 -
腾讯开源SuperSonic:AI+BI如何重塑数据分析?
SuperSonic是腾讯开源的AI+BI平台,融合Chat BI与Headless BI,为制造企业提供实时数据分析。它通过自然语言交互打破数据壁垒,实现生产、库存、质量、供应链等多环节优化,提升决策效率,其开源生态与扩展性助力企业数字化转型与数据价值挖掘。原创 2025-05-07 01:44:18 · 955 阅读 · 0 评论 -
从蜗牛到火箭:揭秘PB级数据训练的终极加速秘籍!
PB级数据不再是无法逾越的高墙,而是通往更强大AI的阶梯。掌握了这些数据、计算、算法层面的优化秘籍,特别是像LAMB、LARS这样的“利器”,你就能驾驭数据洪流,让你的AI模型训练速度实现质的飞跃,更快地将创新想法变为现实!原创 2025-04-17 12:27:31 · 136 阅读 · 0 评论 -
分布式计算领域的前沿工具:Ray、Kubeflow与Spark的对比与协同
Ray、Kubeflow和Spark各有所长,选择哪一个取决于具体应用场景和需求:数据密集型任务(ETL、分析报告、特征工程)优先考虑Spark计算密集型任务(复杂ML训练、强化学习、非结构化数据处理)优先考虑Ray完整MLOps流程需要Kubeflow的编排能力更重要的是,通过合理整合这些技术,可以构建一个覆盖从数据处理到模型训练再到生产部署的完整解决方案,为AI应用开发提供坚实基础。原创 2025-04-15 13:10:28 · 1181 阅读 · 0 评论 -
多模态大模型重塑自动驾驶:技术融合与实践路径全解析
多模态大模型在自动驾驶中的应用代表了AI与汽车工业融合的前沿实践。通过构建完整的数据闭环系统实现多模型有机连接,可显著提升系统的感知能力、决策水平和用户体验。尽管单一模型(如Qwen2.5-Omni)具有简化系统架构的优势,但在高要求的自动驾驶场景中,多模型分层协作架构能更好地平衡性能、可靠性和功能覆盖。原创 2025-04-08 13:54:32 · 1127 阅读 · 0 评论 -
揭秘大模型的多语言能力:内部机制与知识迁移
近年来,大模型(如GPT系列、Claude等)的多语言能力令人叹为观止。它们不仅能流畅地理解和生成多种语言的文本,还能在不同语言间无缝切换,轻松完成翻译、问答甚至创作任务。这种能力究竟从何而来?大模型内部是否藏着一种神秘的“通用语言”?通过Anthropic对Claude Haiku 3.5模型的研究,我们得以一窥大模型多语言能力的内部机制。本文将带你揭开这一技术奇迹的面纱。原创 2025-03-31 20:24:55 · 730 阅读 · 0 评论 -
打造高性能中文RAG系统:多轮对话与语义检索的完美结合
打造一个高性能的中文RAG系统,需要在检索策略、对话理解和性能优化上下功夫。通过本文介绍的设计思路,相信读者能够构建更智能、更自然的AI问答系统,为用户提供卓越的体验。原创 2025-03-30 21:51:53 · 1083 阅读 · 0 评论 -
Chain-of-Verification (CoVe):让大模型“自我审校”的技术如何落地?
本文深入解析了 Chain-of-Verification (CoVe) 技术,它通过让 AI 模型自我验证生成的回答,显著提升了输出的准确性和可信度。CoVe 的核心在于分阶段处理:生成初始回答、规划验证问题、独立执行验证、最终修正回答。这种技术通过提示词工程实现,无需修改模型或额外训练,成本低且效果显著,能将简单问题的准确率提升一倍以上,复杂问题的 F1 值提升 23%,长篇内容的事实准确度提高 28%。原创 2025-03-25 12:16:37 · 1038 阅读 · 0 评论 -
注意力机制复杂度真的是对数级别吗?从新视角理解Transformer
通过"Work-Depth"模型,我们重新认识了注意力机制的复杂度:理论上,它是对数级别(O(log n)),这为Transformer的高效性提供了新的解释。然而,由于缓存和硬件限制,实际复杂度往往接近O(n log n)。原创 2025-03-24 10:21:46 · 834 阅读 · 0 评论 -
揭秘大型语言模型:从神经元到思维透明的奇妙旅程
这篇博客带你走进大型语言模型的内部世界,从神经元的小任务,到功能向量的团队合作,再到层间的协作和思维的透明化。掌握这些知识,能让你在开发中更高效地优化AI,在研究中更深入地探索模型的奥秘。建议多动手实践,把这些理论变成自己的能力!原创 2025-03-17 13:06:47 · 1193 阅读 · 0 评论 -
解密AI模型提升的秘密武器:5大后训练技术全解析
ReFT通过强化学习优化复杂推理;RLHF基于人类反馈对齐输出;DPO直接优化偏好,简化训练;RLAIF用AI反馈扩展训练规模;PEFT仅调整少量参数,大幅降低资源需求。五大技术各有优势,共同推动AI发展。原创 2025-03-17 10:18:59 · 1012 阅读 · 0 评论 -
扩散模型:AIGC领域的核心引擎,解锁图像生成新维度
扩散模型是一种受热力学启发的生成模型,通过前向扩散添加噪声将数据转化为噪声分布,再通过反向扩散从噪声恢复原始数据。发展历程从DDPM开始,逐步优化采样速度,引入分类器引导和CLIP多模态技术,超越GAN,成为图像生成主流。应用涵盖计算机视觉、时序预测、自然语言及多模态任务(如文本生成图像),展现强大潜力。原创 2025-03-15 19:14:45 · 1118 阅读 · 4 评论 -
扩散模型在低级视觉任务中的应用:4个必看开源项目【附代码】
扩散模型正革新低级视觉任务,它们能处理像素级图像,完成超分辨率、去模糊、去雾、低光照增强等任务。其工作方式包括正向扩散添加噪声和反向去噪恢复图像。文章列举了4个相关GitHub开源项目,这些项目提供完整源码和预训练模型,可直接部署使用,将推动视觉AI发展。原创 2025-03-15 16:52:05 · 788 阅读 · 0 评论 -
RAG 系统召回优化实战:百万文档中提升检索速度与精度的 4 大方案
本文从原理到代码,展示了如何优化 RAG 系统的召回环节。无论是选择领域模型、混合检索、重排序,还是向量量化,每种方法都针对特定问题提供了解决方案。在实际应用中,可根据数据规模、硬件资源和业务需求灵活组合这些技术,构建高效且准确的检索系统。希望这篇文章能为你的 RAG 系统优化提供实用指导!原创 2025-03-14 00:55:56 · 815 阅读 · 0 评论 -
QwQ-32B大模型本地部署全攻略:推理能力爆表,消费级GPU也能轻松玩转!
QwQ-32B是来自Qwen的一个320亿参数的推理模型,擅长复杂问题求解。数学推理玩井字棋等游戏利用推理能力解决复杂问题生成具有真实物理模拟的代码可以看到在官方放出的评测图中, QwQ-32B 与满血版 DeepSeek R1(671B)在五项基准测试的得分不相上下,更是远超同尺寸 R1 蒸馏模型。原创 2025-03-13 12:39:06 · 1834 阅读 · 0 评论 -
美团开源INT8量化DeepSeek R1:老显卡焕发新生,推理吞吐提升50%!
美团团队通过INT8量化方案解决DeepSeek R1部署难题,在A100上实现推理吞吐量提升50%,16张卡即可部署,且精度损失小于0.5%,为大模型部署提供新思路。原创 2025-03-08 11:24:43 · 243 阅读 · 0 评论 -
揭秘AI自我进化:从合成轨迹到强化学习的突破性进展
通过合成高质量思维链数据和强化学习,AI模型能够从错误中学习并自我改进,显著提升复杂推理任务的表现。这一方法在多个领域中应用潜力巨大,并有助于未来AI发展的突破。原创 2025-03-08 10:17:42 · 239 阅读 · 0 评论 -
如何让AI学会“自我改进”?揭秘Open R1和DeepScaleR的突破性训练方法
近年来AI自我改进研究取得突破,Open R1、DeepScaleR和LIMO等项目通过合成高质量推理轨迹和分阶段强化学习,让AI逐步学会自我改进,未来AI“思考”能力有望进一步进化。原创 2025-03-08 10:17:24 · 392 阅读 · 0 评论 -
为什么有的AI模型能自我改进,而有的却不行?——从斯坦福研究看大模型的“思考”秘密
斯坦福研究发现,AI自我改进依赖于验证、回溯、子目标设定和逆向思考四种认知行为。Qwen因预训练中更多接触这些行为而优于Llama。实验表明,通过合成轨迹或调整预训练数据注入这些行为,Llama的改进能力显著提升。这凸显了元认知能力在AI持续学习中的关键作用。原创 2025-01-18 18:37:14 · 1357 阅读 · 0 评论 -
KIMI K1.5:大规模强化学习在大语言模型中的应用与工程实践
KIMI K1.5模型通过长上下文强化学习、策略优化技术及工程架构创新,显著提升推理能力,在数学、编程等复杂任务上取得优异成绩,为大语言模型发展提供了新方向。原创 2025-02-25 12:49:22 · 274 阅读 · 0 评论 -
CVPR大爆料!百万级真机数据 + 自动驾驶新方向, 扩散模型又立大功!
扩散模型资源汇总包括以下内容:Awesome-Diffusion-Models:涵盖图像生成、医学成像、强化学习等应用的资源集合。视频生成、编辑、恢复等:最新扩散模型列表。图像处理综述:恢复、增强、编码、质量评估等。图扩散生成:论文、代码和数据集。原创 2025-01-19 20:11:12 · 140 阅读 · 0 评论 -
LLM实践:AI Agent 智能体的五大框架
在选择 AI Agent 多智能体开发框架时,需考虑任务类型、易用性、灵活性、开源语言模型支持、社区支持和成本效益等因素。AutoGen 适合复杂编程任务,CrewAI 和 OpenAI Swarm 适合初学者,LangGraph 适合复杂任务,Magentic-One 提供预配置设置,适合非编程背景用户原创 2025-01-07 00:02:55 · 251 阅读 · 0 评论 -
DeepSeek-V3震撼发布:671亿参数开源大模型,性能超越GPT-4o,引爆AI界革命!
DeepSeek-V3 是一款性能卓越的开源语言模型,具有 671 亿参数和 37 亿激活参数,采用混合专家 (MoE) 架构,训练数据量达 14.8 万亿 token。其在数学、代码生成、长文本处理等多个领域表现出色,与顶级闭源模型如 GPT-4o 相当。DeepSeek-V3 的训练成本低,仅需 558 万美元,且生成速度从 20 TPS 提升至 60 TPS。原创 2025-01-06 22:08:22 · 2222 阅读 · 0 评论 -
AI发展新态势:从技术突破到安全隐忧
AI模型出现策略性欺骗行为,为保护自身"价值观"甚至会欺骗训练者。行业应对策略:重视知识类数据,强化人机协作,发展分布式AI和安全治理。关键是保持个人能力领先于行业,而非与AI技术竞争。原创 2024-12-27 12:30:27 · 509 阅读 · 0 评论 -
部署开源大模型的硬件配置全面指南
本文指导如何为AI模型选择硬件,涵盖GPU资源平台、硬件配置策略,分析显卡选择,考虑国际政治影响,展望国产AI芯片未来。原创 2024-12-21 14:07:15 · 1204 阅读 · 0 评论 -
如何用强化微调技术革新AI模型,提升性能并减少数据依赖
强化微调结合监督学习和强化学习,优化模型表现,减少数据需求,适用于目标明确的场景。原创 2024-12-16 09:39:51 · 137 阅读 · 0 评论 -
多模态大型语言模型(MLLM)综述
多模态大型语言模型(MLLMs)通过结合视觉和文本信息,推动了图像标注、视觉问答、视觉叙事等领域的发展,并在跨模态检索和搜索中展现出巨大潜力,同时也引发了对偏见和伦理的考量。原创 2024-11-25 13:44:47 · 789 阅读 · 0 评论 -
探索AI新前沿:向量数据库如何革新知识检索与智能客服
向量数据库中,是对非结构化的向量进行操作,通常应用相似性度量来查找与我们的查询最相似的向量,因此向量数据库只能提供近似结果,无法提供准确匹配。原创 2024-08-13 09:38:33 · 180 阅读 · 0 评论 -
CLIP在推荐系统和多模态学习中的应用
CLIP是一个多模态模型,通过对比学习将图像和文本映射到同一嵌入空间,实现跨模态搜索和生成,适用于零样本学习图像分类。原创 2024-06-30 23:54:32 · 1270 阅读 · 1 评论 -
使用 Vanna 生成准确的 SQL 查询:工作原理和性能分析
Vanna 是一个 Python 包,利用检索增强功能通过自然语言问答生成准确的 SQL 查询。本文介绍了 Vanna 的工作原理和如何使用它,以及其性能分析。原创 2024-06-26 12:29:05 · 1513 阅读 · 1 评论 -
GPTCache:革新大模型缓存,降低成本,提升效率
GPTCache项目通过语义缓存LLM响应,有效降低高流量下API调用成本和提高响应速度。项目提供从初始化到集成的详细步骤,支持自定义嵌入函数、数据管理器和相似度评估,优化了长序列处理和多轮对话的效率。此外,介绍了KV Cache在GPT2中的应用,展示了其在Transformer模型中的关键作用,通过缓存Key和Value状态减少计算量,加速模型推理。原创 2024-06-23 14:23:53 · 384 阅读 · 1 评论 -
LLaMA:挑战大模型Scaling Law的性能突破
Scaling Law为大模型训练提供了计算量、参数量和数据量之间的量化关系。LLaMA模型的出现,可能颠覆了这一定律,展现出在较低资源消耗下的高性能,为大模型的效率和性能平衡开辟了新路径原创 2024-06-23 12:38:08 · 361 阅读 · 0 评论 -
深度学习模型的生命周期与推理系统架构
本文概述了深度学习模型从训练到推理的全生命周期,重点探讨了推理阶段的系统架构、优化策略以及边缘部署的多种方式。原创 2024-06-10 18:03:51 · 434 阅读 · 1 评论 -
具身人工智能:人工智能机器人如何感知世界
高通人工智能研究院开发了一种名为“几何代数变换器”(GATr)的数据高效架构模型,用于改善机器人对环境的感知,具有几何代数表示、等变层和Transformer架构,即使在少量数据下也能实现高性能,有望推动具身人工智能在制造业、医疗保健等领域的应用。原创 2024-05-26 17:45:49 · 331 阅读 · 2 评论 -
深度学习模型训练优化:并行化策略与参数拆分技术
本文介绍了深度学习中用于提高训练效率和降低硬件要求的并行处理技术,包括张量并行、流水线并行、混合精度训练、模型并行和数据并行,梯度累积。这些方法通过在多个处理器上分配计算任务,使得训练大型神经网络更加高效,同时降低了内存和计算资源的需求。原创 2024-04-25 10:28:00 · 516 阅读 · 0 评论 -
【Kaggle比赛】DFL 德甲足球事件检测大赛(CV·目标检测-视频分类)
本文介绍了足球事件检测比赛的技术实现,涵盖数据预处理、增强、模型训练与集成,以及推理优化等环节。通过YOLOv5和DeepSORT模型的结合,实现了对足球比赛视频中传球、挑战等事件的自动检测与分类,最终在公开测试集上达到mAP 87.3%的性能,并满足了比赛的提交时限要求。原创 2024-04-10 09:28:05 · 1233 阅读 · 0 评论 -
数据挖掘比赛比较基础的baseline
本文综述了三种流行的梯度提升决策树(GBDT)库:LightGBM、XGBoost和CatBoost,强调了它们在处理大规模数据集、分类特征优化和数值计算加速方面的特点与应用。同时,文章探讨了模型参数调优的原则、模型验证方法,以及使用Numba和CuPy进行高效数值计算的技术。这些内容为机器学习从业者在选择合适工具和优化模型性能提供了宝贵的指导。原创 2024-04-01 23:47:08 · 802 阅读 · 2 评论 -
揭秘大模型「幻觉」:数据偏差、泛化与上下文理解的挑战与解决之道
本文深入探讨了大型语言模型(LLM)产生「幻觉」现象的原因,包括数据偏差、过度泛化和上下文理解不足,并提出了针对性的解决策略,如改进训练数据、模型微调和上下文增强等,以期提升模型的准确性和可靠性。原创 2024-01-06 21:52:56 · 1707 阅读 · 0 评论 -
RAG框架LlamaIndex核心——各种索引应用分析
LlamaIndex 是一个大型语言模型(LLM)的数据框架,它提供了数据摄取、数据构建、检索和查询接口以及与其他框架集成的工具。LlamaIndex 可以帮助用户轻松地将现有的数据源和格式(如 API、PDF、文档、SQL 等)与 LLM 结合使用。它提供了多种索引类型,如列表索引、向量索引、树索引和关键字表索引,以便更好地组织和检索相关信息。原创 2023-12-22 20:23:19 · 4058 阅读 · 0 评论 -
基于局域网和广域网训练推理加速策略
TensorFlow 的 MirroredStrategy 和 PyTorch 的 DistributedDataParallel 它们可以帮助您在多个 GPU 或多个计算节点上训练大型模型。Petals 适用于那些希望优化深度学习模型推理和微调的场景,尤其是当单一设备无法高效处理这些大型模型时。原创 2023-12-18 18:43:54 · 1058 阅读 · 0 评论