- 博客(122)
- 资源 (1)
- 收藏
- 关注
原创 LLM架构解析:门控循环单元(GRU)(第三部分)—— 从基础原理到实践应用的深度探索
**摘要**:该博客详细介绍了门控循环单元(GRUs)。首先指出它由Cho等人于2014年提出,用于解决RNN的梯度消失问题,且结构比LSTM更简化。接着阐述了GRU的两个关键门(更新门和重置门)的工作原理,并给出Python实现代码。随后分析其优缺点,在处理序列数据上表现出色,但长期记忆和复杂模式捕捉能力稍弱。最后对比GRU与LSTM的适用场景,为实际应用中的模型选择提供参考。
2025-04-03 16:07:39
502
原创 LLM架构解析:长短期记忆网络(LSTM)(第三部分)—— 从基础原理到实践应用的深度探索
该博客深入介绍LSTM(长短期记忆网络)。开篇阐述其作为特殊RNN,能处理长期依赖问题。接着讲解LSTM架构,包括细胞状态、三种门(遗忘门、输入门、输出门)及相关激活函数的作用机制。随后用Python从零构建LSTM模型,涵盖数据预处理、模型训练与验证的详细代码实现。最后指出模型训练中的问题及改进方向,为理解和应用LSTM进行序列数据处理提供了全面指导。
2025-04-03 15:37:13
763
原创 LLM架构解析:循环神经网络(RNN)(第三部分)—— 从基础原理到实践应用的深度探索
本文深入介绍神经网络,从基础概念讲起,阐述其学习过程、类型等。着重探讨循环神经网络(RNNs),包括架构、关键操作、训练挑战及解决办法,并从零构建RNN用于时间序列预测,涵盖数据处理、模型训练等环节。此外还提及长短期记忆网络(LSTMs),为进一步理解和应用神经网络在序列数据处理方面提供了全面的知识,助力读者掌握相关技术原理与实践方法。
2025-04-03 14:53:19
613
原创 一文读懂 AI 生态中人工智能、机器学习、神经网络与深度学习之间的关系
今天,我们将讨论人工智能、机器学习、神经网络和深度学习之间的相互关系。通过查看上面的图表(见本文的封面图片),我们可以得出以下结论。人工智能是一个广泛的领域。机器学习、神经网络和深度学习是人工智能的子领域。神经网络和深度学习是机器学习的特定领域。在学习神经网络和深度学习之前,你应该熟悉一般的机器学习知识。并非所有的神经网络都是深度学习模型。让我详细解释一下每个术语。
2025-04-01 17:16:34
684
原创 我是如何扩展一个Go后端以实现每秒处理100万次请求的?只需要简单4步
它最初只是一个简单的应用程序编程接口(API)—— 仅仅是一个轻量级的Go服务,用于处理用户身份验证和支付处理。起初,它每天处理几千次请求时运行得完美无缺。但随着流量的增长,我曾经反应敏捷的后端变得迟缓起来。延迟大幅增加,数据库查询成了瓶颈,服务器在高负载下举步维艰。有一天,我们的服务被一家知名新闻网站报道了。几分钟内,流量激增了10倍。我的Go后端几乎快跟不上了,基础设施团队大喊道:“我们需要更多的服务器!就在那时,我挺身而出,对我们的系统进行了优化,使其能够每秒处理100万次请求(RPS)。
2025-03-31 21:35:19
852
原创 LLM架构解析:词嵌入模型 Word Embeddings(第二部分)—— 从基础原理到实践应用的深度探索
词嵌入(Word embeddings)是自然语言处理(Natural Language Processing,NLP)领域的一个基础概念。它们本质上是一种将单词转换为连续向量空间中的数值表示(即向量)的方法。其目标是捕捉单词的语义含义,使得具有相似含义的单词具有相似的向量表示。这篇博客文章涵盖了词嵌入从基础到高级的各个重要方面,确保读者能够全面理解这一主题及其在自然语言处理(NLP)和大语言模型(LLMs)背景下的演变。向量是一种既具有大小(长度)又具有方向的数学对象。
2025-03-31 17:33:33
571
原创 构建大语言模型应用:句子转换器(Sentence Transformers)(第三部分)
本文深入解析了BERT模型的预训练机制及其创新特性。作为自然语言处理领域的里程碑式模型,BERT通过掩码语言建模(MLM)和下一句预测(NSP)两个无监督任务进行预训练,其中MLM随机掩盖15%的输入词汇并要求预测原词,NSP则专注于理解句子间关系。研究指出,这种双向训练方式(使用BooksCorpus和维基百科共33亿单词的语料)使BERT能够同时捕捉左右上下文信息,突破了传统单向语言模型的局限。文章特别强调,这种架构使BERT在问答系统(QA)和自然语言推理(NLI)等需要理解句子关系的任务中表现卓越,
2025-03-28 17:27:42
702
原创 大模型AI Agent:简介(第一部分)—— 特性、组件、运作及应用全景
本文深入探讨人工智能代理。首先阐述从大语言模型到人工智能代理的演变,对比传统聊天机器人与大语言模型驱动的聊天机器人,引入检索增强生成(RAG)聊天机器人及AI代理概念。接着介绍AI代理定义,其具自主性、适应性等特点,核心组件涵盖感知、推理等部分。详细说明其与环境交互的“感知 - 规划 - 行动”循环及运作方式,包括编排层、模型、工具协同。还探讨使用场景,在工作流程难预先确定时AI代理优势明显,广泛应用于多领域。总之,AI代理潜力巨大,正重塑人与技术交互方式,但面临伦理等挑战 。
2025-03-28 16:17:00
896
原创 LLM架构解析:NLP基础(第一部分)—— 模型、核心技术与发展历程全解析
本文全面且深入地阐述了自然语言处理(NLP)领域的相关内容。开篇定义 NLP,介绍其核心领域自然语言理解与生成,并列举情感分析、机器翻译等应用。详细讲解 NLP 基础概念,如分词、词干提取等,以及词袋模型、TF - IDF 等特征提取方法,深入探讨词嵌入、变换器等先进技术。梳理 NLP 从 20 世纪 50 年代基于规则的系统到当下大型语言模型的发展历程,分析各阶段关键里程碑。最后设置检验知识环节,涵盖基础、进阶问题及自主探究内容,助力读者全面掌握 NLP 知识。
2025-03-28 15:33:22
1219
原创 构建大语言模型应用:数据准备(第二部分)
任何机器学习应用的初始阶段都需要进行数据准备。这包括建立数据摄取流程以及对数据进行预处理,使其与推理流程兼容。在本文中,我们将把注意力转向检索增强生成(RAG)的数据准备方面。目标是有效地组织和构建数据结构,确保在我们的应用程序中能够以最佳性能找到答案。
2025-03-28 13:35:39
777
原创 构建大语言模型应用:简介(第一部分)
如果你一直在向量存储或其他一些数据库中查找数据,并在生成输出时将相关信息作为上下文传递给大语言模型,那么你已经在进行检索增强生成了。检索增强生成,简称 RAG,是由Meta 在 2020 年推广的一种架构,旨在通过将相关信息与问题/任务详情一起传递给模型,来提高大语言模型的性能。
2025-03-28 13:00:05
1250
原创 一文读懂:如何在本地部署阿里巴巴大语言模型QwQ-32B——环境搭建、实操步骤
是否曾想过在自己的本地机器上运行一个强大的语言模型?现在为你介绍阿里巴巴最新且最强大的大语言模型QwQ-32B。无论你是开发者、研究人员,还是只是一个好奇的技术爱好者,在本地运行QwQ-32B都能为你开启一个充满可能性的世界——从构建定制的人工智能应用程序,到进行先进的自然语言处理任务实验。在本指南中,我们将一步一步地指导你完成整个过程。我们将使用**Ollama**和**LM Studio**等工具,使设置尽可能顺畅。
2025-03-10 17:54:47
1834
原创 深度技术剖析:手把手带你用 PyTorch 完成大语言模型的从零搭建
在本文中,我们将介绍大语言模型(LLM),包括它的工作原理以及如何从零开始训练它。我会尽量清晰地阐述本文中的所有主题,希望大多数读者都能理解并从中有所收获😁。
2025-03-10 17:04:21
808
原创 深度学习五大模型全解析:CNN、Transformer、BERT、RNN、GAN 的区别与联系,一文读懂!
深度学习中有许多重要的模型架构,以下是五种最具代表性的模型:CNN(卷积神经网络)、Transformer、BERT、RNN(循环神经网络)和GAN(生成对抗网络)。它们在不同的任务中表现出色,各自有独特的原理、应用场景和研究背景。下面将详细解释它们的区别与联系,并给出相关论文和参考代码。
2025-03-07 17:59:48
773
原创 5分钟速览深度学习经典论文 —— attention is all you need
Attention is All You Need 是一篇极其重要的论文,它提出的 Transformer 模型和自注意力机制不仅推动了 NLP 领域的发展,还对整个深度学习领域产生了深远影响。• 提出一种完全基于注意力机制(Attention Mechanism)的模型,摒弃递归和卷积结构,解决上述问题。• 在 2017 年之前,序列建模任务(如机器翻译)主要依赖于递归神经网络(RNN)和卷积神经网络(CNN)。• 自注意力机制的计算复杂度随序列长度平方增长,限制了其在长序列任务中的应用。
2025-03-06 23:13:26
1086
1
原创 5 分钟读懂 RNN循环神经网络和多层RNN:原理、Tensorflow代码和应用
RNN:RNN 是一种强大的工具,特别适合处理简单的序列数据,但存在梯度消失/爆炸问题。要结合实际任务选择合适的变体。多层 RNN:通过堆叠多个 RNN 层,增强了模型的表达能力,但计算开销更大。结合 LSTM/GRU:可以缓解梯度问题,适合处理复杂的序列任务。根据具体任务选择合适的模型结构和参数,通常需要结合实验进行调整。
2025-03-06 21:53:22
1010
原创 深度学习的必备知识:如何理解经验损失 Empirical Loss?
Empirical Loss(经验损失)是机器学习和深度学习中的一个重要概念,它表示模型在训练数据集上的平均损失。经验损失是模型在训练过程中优化的目标,通过最小化经验损失,模型可以学习到适合训练数据的参数。
2025-03-05 22:57:59
660
原创 深度学习小白福音!一文读懂 TensorFlow 里的 Keras 库
tensorflow.keras 是 TensorFlow 库中的一个高级 API,专门用于构建和训练深度学习模型。Keras 最初是一个独立的深度学习库,但后来被整合到 TensorFlow 中,成为其官方的高级 API。
2025-03-05 22:49:49
532
原创 一文读懂深度学习中的损失函数quantifying loss —— 作用、分类和示例代码
在深度学习中,quantifying loss(量化损失)是指通过数学方法计算模型预测值与真实值之间的差异,以衡量模型的性能。损失函数(Loss Function)是量化损失的核心工具,它定义了模型预测值与真实值之间的误差大小。损失值越小,表示模型的预测越接近真实值。
2025-03-05 22:40:00
783
原创 面试高频考点:一文吃透并发Concurrency与并行Parallelism
并发和并行是系统设计中最容易被误解的两个概念。虽然它们听起来很相似,但实际上指的是处理任务的两种截然不同的方法。简单来说,一个是关于同时管理多个任务,而另一个是关于同时执行多个任务。在本文中,我们将剖析这两个概念之间的差异,探讨它们的工作原理,并通过示例和代码来说明它们在现实世界中的应用。
2025-03-04 16:57:36
767
原创 技术小白也能上手!如何在AWS等公有云的EC2上自主部署DeepSeek R1
在你自己的基础设施上部署像 DeepSeek R1 这样的大语言模型(LLM),可以让你完全掌控数据隐私和自定义设置。在本指南中,你将学习如何在 AWS EC2 实例上使用 Ollama(用于本地大语言模型管理)和 nextjs-ollama-llm-ui(一个基于 Next.js 的用户界面,用于与模型进行交互)自行托管 DeepSeek R1。
2025-03-04 15:46:15
350
原创 必知必会!如何在Kubernetes中管理Configurations和Secrets
在Kubernetes中,管理配置和机密信息对于确保应用程序的灵活性、安全性和易于部署至关重要。当应用程序依赖于配置或敏感数据(如API密钥、密码和环境变量)时,Kubernetes提供了的工具。Kubernetes中的ConfigMaps(配置映射)和Secrets(机密)使得动态管理和更新这些配置成为可能,让您的应用程序能够在不直接在容器中硬编码信息的情况下进行适配和扩展。本指南将解释如何有效地管理配置和机密信息,从而增强安全性并维持平稳运行。
2025-02-26 11:57:17
788
原创 从45分钟到10分钟:我是如何将CI/CD流水线速度提升5倍的
文将介绍我是如何把CI/CD流水线的运行时间从冗长乏味的45分钟缩短至的,以及任何人都可以采取哪些步骤来取得类似成果。
2025-02-26 11:48:01
950
原创 企业必备!搭建提示词库,解锁高效Prompt提示词工程
如今,提示词是与大语言模型(LLM)交互的主要方式。提示词需要根据用户需求进行调整,为大语言模型提供正确的上下文和指引,以最大程度提高获得 “正确” 响应的几率。这促使提示词工程 [1] 作为一门专业学科兴起,提示词工程师系统地进行试验,记录他们的发现,以得出能引出 “最佳” 响应的 “正确” 提示词。然后,这些成功的提示词会以库的形式整理起来,以便能高效复用,这就是所谓的提示词库。不幸的是,策划和维护高质量的提示词库仍然充满挑战。提示词库的首要目标是能够为给定任务检索到最优提示词,而无需重复整个实验过
2025-02-25 22:01:17
1291
原创 2025 年,从 0 到 1 把崭新 Mac 打造成 AI 与开发利器,效率飞升秘籍!
?如果你正在读这篇文章,无论你像我一样从Linux迁移过来,还是从Windows转用Mac,亦或是刚开始使用新MacBook开启开发之旅,你可能都处于同样的境地。让我来和你分享,我是如何从最初的困惑,转变为爱上macOS的。我还记得在拿到MacBook的第一天就安装了它,那熟悉的界面立刻让我有了家的感觉。:与其安装你认为可能需要的每一个扩展,不如先从这几个开始,只有在你反复需要特定功能时再安装更多。
2025-02-25 21:51:28
821
原创 一文读懂 Nginx!安装配置、负载均衡、安全优化全解析
从安装到高级配置,本指南为你提供了掌握Nginx所需的基础和进阶知识。若要进一步提升专业技能,你可以探索官方文档,在实际场景中进行实践,并参与活跃的Nginx社区。立即掌握Nginx,释放高性能Web服务器的强大力量!
2025-02-24 16:24:55
563
原创 2025年助力拿下高薪工作的十大人工智能认证
想象一下:你一直在浏览招聘网站,梦想着获得一份年薪六位数的人工智能专家职位。但现实却很残酷——竞争激烈,雇主们在寻找既有又有的候选人。那么,你该如何脱颖而出呢?人工智能认证就是你的秘密武器。它们提供专业培训,帮助你掌握实用技能,并向雇主证明你的专业能力。无论你是刚刚起步,还是希望提升自己,这些认证都能赋予你竞争优势,助你获得理想工作。以下是2025年你应该考虑的十大人工智能认证,它们能为你开启人工智能领域的高薪职位。
2025-02-24 14:22:16
1180
原创 我是如何将Docker镜像大小缩减90%的:精简容器的最佳实践
缩减Docker镜像大小对于至关重要,同时还能节省宝贵的存储空间。结合自身经验,我摸索出了一些行之有效的策略,这些策略不仅能优化Docker镜像,还能提升整体性能和效率。以下是我在实践中运用并极力推荐的最佳做法,帮助你打造精简高效的Docker镜像。
2025-02-24 11:22:59
750
原创 DeepSeek 2025年2月16日最新NSA论文解读:硬件适配且可原生训练的原生稀疏注意力机制
Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》提出了一种新型的稀疏注意力机制,旨在解决传统Transformer模型在处理长序列时面临的计算和内存瓶颈。该论文通过硬件对齐的块稀疏设计和动态可训练机制,实现了高效且灵活的自注意力计算。其核心贡献在于将稀疏模式的优化从算法层面向硬件计算特性延伸,同时保持端到端的可训练性,为长序列建模提供了新的解决方案。
2025-02-20 15:20:44
946
原创 速懂!容器运行时接口 CRI 与 kubectl,一文全解底层逻辑
容器运行时接口(CRI)是一个插件接口,它使 kubelet 能够使用各种各样的容器运行时,而无需重新编译集群组件。kubelet:kubelet 是运行在每个 Kubernetes 节点上的守护进程。它实现了 pod 和节点的 API,驱动着 Kubernetes 内的大部分活动。kubelet 通过支持控制平面与节点之间的有效通信,确保无缝协调和高效的资源分配,持续监控容器并进行自动恢复,以提高集群的弹性。Pods:Pod 是 Kubernetes 内最小的可引用单元。
2025-02-20 11:50:36
810
原创 Kubernetes CNI网络模型概述:VETH与网桥Bridge/覆盖网络Overlay/BGP
本文介绍了三种 CNI 网络模型:Native - Routing、覆盖网络和 BGP。Native - Routing 的前提是集群内的 Pod IP 必须是可路由的,但通常情况并非如此。因此,许多 CNI 插件使用 VXLAN 或 IP - in - IP 等技术实现覆盖网络以确保连接性。在更复杂的场景中,如多集群或混合云环境,可以使用 BGP 实现 Pod 的外部访问。
2025-02-20 11:27:00
1158
原创 Kubernetes的Ingress和Service有什么区别?
在Kubernetes中,Ingress和Service是两个不同的概念,它们在功能、作用范围、应用场景等方面存在明显区别,具体如下:
2025-02-19 15:38:55
544
原创 Kubernetes的Ingress 资源是什么?
Ingress资源定义了从集群外部到内部服务的HTTP和HTTPS路由规则。通过Ingress,可以将多个不同域名或不同路径的请求,根据定义的规则,导向到集群内不同的Kubernetes服务,从而实现对集群内服务的统一外部访问管理。
2025-02-19 15:37:52
374
原创 网络流量如何从公共互联网抵达Kubernetes容器 Pod?
“解释网络流量如何从公共互联网抵达 Kubernetes 容器(Pod)”,这是 DevOps 技术面试中相当常见的问题。对这个问题给出准确且详尽的回答,能体现出 DevOps 工程师对 Kubernetes 各项流程的熟悉程度。在本文中,我将以在 AWS EKS 上运行 Kubernetes 为例,梳理这一过程。简短的答案可以概括为:用户请求→域名系统(DNS)→弹性负载均衡器(ELB)→Ingress 控制器(可选)→Kubernetes 服务→容器(Pod)。
2025-02-19 15:29:45
721
原创 谁说消费级硬件不能玩 DeepSeek - R1 微调?手把手教你进阶AI玩家
微调像DeepSeek - R1这样的大规模人工智能模型可能需要大量资源,但借助正确的工具,在消费级硬件上进行高效训练是可行的。让我们来探索如何使用LoRA(低秩自适应)和Unsloth来优化DeepSeek - R1的微调,实现更快、更具成本效益的训练。🚀🔧💡。
2025-02-18 15:31:05
1318
原创 2025年2月深度实测!DeepSeek、OpenAI o1、Gemini打造爆款应用及对比
我在网上看到了关于DeepSeek R1的各种说法,这是一个开源模型,其能力即便不比OpenAI o1等付费模型强,也与之相当:由于我在日常工作中广泛使用这些人工智能模型(使用Cursor AI),我决定看看哪种模型最适合我。我从 lmarena 排行榜上挑选了前两名的模型,即 Gemini-Exp-1206 和 OpenAI 的 o1:以及竞争对手 ——DeepSeek R1……我设计了三个实际的编码挑战来测试每个模型的能力:
2025-02-18 14:38:46
1038
原创 2025 必看!15 个极具潜力的人工智能代理商业创意,解锁科技创业新方向
2025年最大的商业机遇肯定是人工智能代理 (AI Agent)。代理式人工智能无疑将引领未来。人工智能代理是一种能自主运行的应用程序,能帮你处理任务,节省时间、精力和资金。各行各业的企业都在积极寻找自动化工具,那些能开发人工智能驱动解决方案的人将拥有显著优势。所以,。我花时间做了研究,总结出15个最具逻辑性和实用性的人工智能驱动商业构想。这些构想完全基于代理式人工智能的运作流程,请记住,这些只是基于我的研究和市场需求得出的一些想法,所以你也务必自行做些调研。
2025-02-15 21:55:52
1048
原创 机器学习里的逻辑回归Logistic Regression基本原理与应用
Logistic Regression 即逻辑回归,是一种广泛应用于机器学习和数据挖掘领域的有监督学习算法,以下从原理、应用、算法优缺点等方面进行介绍:
2025-02-13 22:46:46
1162
原创 Logistic Regression 逻辑回归中的sigmoid函数是什么?
Sigmoid 函数是一种在数学、计算机科学,尤其是在机器学习和深度学习领域广泛应用的函数,以下是关于它的详细介绍:
2025-02-13 22:39:49
1371
原创 5000QPS 实时消息推送!揭秘 AWS 如何实现 iPhone/Android Push、SMS、Email 的高效通联
在这篇博文中,我们将探讨如何使用AWS服务设计并实现一个完全适用于生产环境的无服务器。该架构能够根据系统内特定事件,向客户发送各类通知。此系统专为可扩展性而设计,支持大规模应用程序,每秒能够处理数百甚至数千条通知。我们将利用AWS服务构建这一解决方案,并探索不同的设计模式,从成本、性能及其他关键因素进行评估。
2025-02-11 16:15:54
854
分布式系统-分享-Raft与ETCD.pdf
2021-12-16
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人