自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(33)
  • 收藏
  • 关注

原创 解读Transformer中的QKV的物理含义

摘要:QKV矩阵是Transformer自注意力机制的核心组件,Query代表当前关注需求,Key作为元素标识,Value是实际内容。通过线性变换将输入投影到不同空间,模型计算Q与K的相似度,加权聚合V得到上下文感知表示。这种设计支持动态信息聚焦,多头注意力进一步从多角度分析数据。QKV分工明确,使模型能有效捕捉长程依赖和复杂关系,是Transformer强大能力的关键基础。(149字)

2025-09-17 00:49:03 1060

原创 数据通过Transformer每一步发生了什么?

输入序列通过嵌入和位置编码获得初始表示在多层编码器中逐步提炼和抽象,形成深度上下文表示解码器通过掩码自注意力关注已生成序列,通过编码器-解码器注意力关注输入序列经过多层解码后,最终通过线性层和Softmax生成输出序列整个过程中,层归一化和残差连接确保了训练的稳定性和信息的顺畅流动,而多头注意力机制提供了多视角的理解能力。Transformer的架构设计体现了"分而治之"的哲学思想——通过专门化的组件各司其职,协同工作,最终实现了强大的序列建模能力,为现代大语言模型奠定了坚实的基础。

2025-09-17 00:04:38 646

原创 从《Attention Is All You Need》深入理解Transformer

Transformer架构是2017年《AttentionIsAllYouNeed》论文提出的革命性模型,完全基于自注意力机制,摒弃了传统的RNN和CNN结构。其核心创新包括多头自注意力机制、位置编码和并行计算能力,解决了长距离依赖和计算效率问题。该架构显著提升了机器翻译等任务的性能,并成为BERT、GPT等现代AI模型的基础。虽然存在计算复杂度高等局限,但通过注意力优化、混合架构等技术不断演进,持续推动着AI领域的发展,是自然语言处理乃至多模态领域的重要里程碑。

2025-09-16 23:35:12 801

原创 正则化:机器学习泛化能力的守护神

深度学习先驱Yoshua Bengio曾指出:"​​正则化不是锦上添花,而是生存必需​​"。​​L1正则化​​是"特征剪刀",剪除冗余特征​​L2正则化​​是"权重压缩器",防止数值膨胀​​Dropout​​是"脑力沙盘推演",模拟神经元失效的极端情况通过掌握正则化技术,我们能够有效应对过拟合问题,提高模型泛化能力,构建更加稳健的机器学习和深度学习模型,让AI不仅在训练数据上表现出色,更在真实世界中发挥强大威力。本文深入探讨了正则化的核心概念、方法及应用,希望对您的机器学习之旅有所帮助。

2025-09-16 23:25:11 1031

原创 spring注解

本文将全面介绍Spring各个模块中的常用注解,包括Spring MVC、Spring Boot、Spring Data、Spring Cloud、Spring Security和Spring Test等,帮助开发者更好地理解和使用Spring生态系统。"@ResponseBody":将Controller的方法返回的对象,通过适当的转换器转换为指定的格式之后,写入到response对象的body区,通常用来返回JSON数据或者是XML数据。

2025-09-15 17:20:14 771

原创 数据库选型指南:从需求分析到技术决策的全方位解析

是什么:OSS是阿里云提供的海量、安全、低成本、高可靠的云存储服务。核心特点高可靠性:采用多副本冗余存储技术,保证数据可靠性高可用性:提供99.9%以上的服务可用性低成本:按实际使用量计费,无初始投资无限扩展:存储容量自动扩展,无需担心存储空间不足安全性:提供多种安全机制,包括访问控制、数据加密等适用范围AI训练数据存储和模型文件存储大型媒体文件存储(图片、视频、文档)静态网站托管数据备份和归档大数据分析底层存储局限性不支持事务处理不支持批量操作,需要逐一执行操作不适合频繁更新的场景。

2025-09-15 14:27:01 923

原创 【RNN-LSTM-GRU】第五篇 序列模型实战指南:从选型到优化与前沿探索

本文系统介绍了序列模型的选型策略、优化技巧与学习路径。针对不同任务需求,提供了GRU/LSTM选择指南,强调根据序列长度、数据量和资源约束权衡决策。同时探讨了梯度爆炸、过拟合等常见问题的解决方案,如梯度裁剪、Dropout和注意力机制补偿。高级优化技巧包括混合精度训练、知识蒸馏和神经架构搜索。文章还推荐了理论深化资源和工程实践工具,并指出Transformer等前沿技术的发展趋势,为序列建模实践提供了全面指导。

2025-09-04 23:04:38 725

原创 【RNN-LSTM-GRU】第四篇 GRU门控循环单元:LSTM的高效替代者与实战指南

GRU(门控循环单元)是一种高效的时间序列建模网络,相比LSTM精简了结构,减少了25-33%的参数。它通过更新门和重置门控制信息流动,在保持长期依赖建模能力的同时提升了训练效率15-20%。本文详细解析了GRU的双门控机制,对比了其与LSTM的差异,并给出PyTorch实现时间序列预测的完整代码。GRU特别适合中等长度序列任务、资源受限环境及移动端部署。未来发展方向包括进一步轻量化、多模态应用及与其他架构融合。

2025-09-04 23:01:08 1292

原创 【RNN-LSTM-GRU】第三篇 LSTM门控机制详解:告别梯度消失,让神经网络拥有长期记忆

LSTM通过遗忘门、输入门和输出门三大机制,有效解决RNN的长期依赖问题。遗忘门决定保留哪些历史信息,输入门筛选新信息存入细胞状态,输出门控制信息暴露程度。其加法式状态更新和门控调节使梯度稳定传播,避免消失/爆炸。相比标准RNN,LSTM参数更多但控制更精细,而GRU是其轻量级变体。实际应用中需注意初始化策略、正则化和学习率调度等优化技巧。尽管面临Transformer挑战,LSTM在序列建模领域仍具重要地位,其门控机制思想持续影响新型网络架构设计。

2025-09-04 22:52:37 1362 1

原创 【RNN-LSTM-GRU】第二篇 序列模型原理深度剖析:从RNN到LSTM与GRU

本文深入解析了循环神经网络(RNN)及其变体LSTM和GRU的核心原理。RNN通过循环连接实现时序建模,但面临梯度消失/爆炸导致的长期依赖问题。LSTM通过细胞状态和三个门控机制(输入门、遗忘门、输出门)精细调控信息流;GRU则简化结构,合并为更新门和重置门。文章对比了二者的优劣:GRU参数更少、训练更快,在多数任务表现与LSTM相当;LSTM则更适合超长序列处理。此外还介绍了双向RNN和深度RNN架构,以及残差连接等优化技术。尽管Transformer崛起,RNN系列模型在流式处理和边缘计算中仍具独特优势

2025-09-04 22:48:37 1001

原创 【RNN-LSTM-GRU】第一篇 序列建模基础:理解数据的“顺序”之力

摘要:序列数据广泛存在于文本、金融、生物等领域,具有顺序依赖、变长和动态演化等特性。传统机器学习模型(CNN、FNN)在处理序列数据时存在局限性,催生了专门的序列建模技术。从早期的马尔可夫链到RNN/LSTM,再到革命性的Transformer,序列建模技术不断演进,核心在于有效捕捉长期依赖关系。当前序列建模面临计算效率、数据稀缺等挑战,未来将在多模态融合、通用性等方面发展。理解序列特性、模型局限及发展历程,是应用和研究序列建模的重要基础。

2025-09-04 22:47:20 713

原创 【深度学习】 全连接神经网络代码详解

以下是使用Mermaid语法绘制的详细流程图,解释了这段MNIST手写数字识别代码的完整执行流程:fill:#333;color:#333;color:#333;fill:none;评估模型禁用梯度设置评估模式遍历测试集前向传播预测类别统计正确数计算准确率打印准确率训练模型遍历epochs设置训练模式遍历batches梯度清零前向传播计算损失反向传播参数更新记录损失打印epoch结果构建神经网络输出初始化三层全连接层定义SimpleNN类。

2025-05-15 22:00:13 1145

原创 《Java开发者必备:jstat、jmap、jstack实战指南》 ——从零掌握JVM监控三剑客

- **jstat**:实时监控GC、类加载、编译状态。 - **jmap**:堆转储生成与内存分布分析(慎用`-dump:live`防STW)。 - **jstack**:线程快照与死锁检测。 加上一些进阶技巧。

2025-03-23 17:40:32 871 1

原创 《Java到Go的平滑转型指南》

本文系统探讨了从Java技术栈向Go语言转型的全流程指南,覆盖技术对比、迁移策略、团队适配及未来趋势,旨在帮助企业实现平滑、高效的技术栈升级。

2025-03-23 16:50:47 1335

原创 我的Go学习路线概览

针对有 Java 背景开发者转型 Go 的详细学习路线,分为 4 个阶段,包含核心知识点和实战建议。

2025-03-23 10:51:51 1106

原创 从 Java 的 Spring Boot MVC 转向 Go 语言开发的差异变化

从 Java 的 Spring Boot MVC 转向 Go 语言开发,虽然核心的 Web 开发思想相通,但在技术栈和实现方式上会有明显差异。以下是具体对比和转型建议

2025-03-23 10:40:28 1290

原创 DDD领域驱动设计微服务架构——知识点笔记

梳理了DDD领域驱动设计架构在微服务架构模型中的发展历史,理念和方法论,以及日常企业项目中的代码目录中的体现,介绍了各层的功能职责以及如何配合协作。

2024-07-31 14:15:41 1816

原创 大厂高频面试题复习JAVA学习笔记-学习路线

大厂面试题概览:

2024-04-05 04:51:31 571 1

原创 大厂高频面试题复习JAVA学习笔记-JVM+GC解析

java文件存放了代码逻辑文件,被编译后形成.class字节码文件,字节码文件存放着JVM所能理解的底层指令,当需要调用某个类时就会加载它的class文件创建class对象,将字节码文件加载到jvm内存,这个过程就是类加载。9728k是堆大小,大概10M,2560k是新生代大小,占三分之一,2048k=2560*0.8,满足1:1:8的新生代内部分区规则,最后fullGC都没能解决,直接报错OOM!这是一个内存16G的电脑设备,可见默认-xms是1/64倍物理内存大小,-xmx是1/4倍物理内存大小。

2024-04-05 04:44:45 1318 1

原创 大厂高频面试题复习JAVA学习笔记-JUC多线程及高并发(下)

0 JUC基础概念wait/sleep的区别并发与并行的区别线程的六个状态JUC结构 ​编辑1 请谈谈你对volatile的理解JMM(java内存模型)可见性不保证原子性有序性​编辑指令重排双端检查机制DLC2 CAS你知道吗?3 原子类AtomicInteger的ABA问题谈谈?原子更新引用知道吗?原子引用4 我们知道ArrayList是线程不安全,请编码写一个不安全的案例并给出解决方案。list​编辑setmap参数传递​编辑5 公平锁/非公平锁/可重入锁/递归锁/自旋锁谈谈你的理解?

2024-04-03 05:09:26 1423 1

原创 大厂高频面试题复习JAVA学习笔记-JUC多线程及高并发(上)

0 JUC基础概念1 请谈谈你对volatile的理解JMM(java内存模型)2 CAS你知道吗?3 原子类AtomicInteger的ABA问题谈谈?原子更新引用知道吗?4 我们知道ArrayList是线程不安全,请编码写一个不安全的案例并给出解决方案。5 公平锁/非公平锁/可重入锁/递归锁/自旋锁谈谈你的理解?请手写一个自旋锁6 CountDownLatch/cyclicBarrier/semaphore使用过吗?7 阻塞队列知道吗?8 线程池用过吗?9 线程10 死锁编码及定位分析

2024-04-03 05:00:28 976 1

原创 面试题知识点笔记-MySQL开发

个人学习笔记,记录了MySQL面试时开发相关知识(),学习视频来自https://www.bilibili.com/video/BV1N24y1y7a1?p=46&vd_source=6d6a08fa1171692d2a6f755b358208be

2024-03-28 23:25:33 1308 1

原创 面试题知识点笔记-MySQL日志

个人学习笔记,记录了MySQL面试时日志相关知识,学习视频来自https://www.bilibili.com/video/BV1N24y1y7a1?p=46&vd_source=6d6a08fa1171692d2a6f755b358208be

2024-03-28 16:49:26 682 3

原创 面试题知识点笔记-MySQL事务

两个事务同时操作了一个资源 ,第一个客户端读取了别的客户端修改前或者后面的数据(根据隔离级别的优先级)覆盖操作,两个事务同时对一个对象操作时,可能有一个事务会把另一个事务的操作覆盖了指在一个事务内多次读取同一数据…*,在这个事务还没结束时,另外一个事务也访问了这个数据并**对这个数据进行了修改…,那么就可能造成第一个事务两次读取的数据不一致,这种情况就被称为!**不可重复读。学习视频:https://www.bilibili.com/video/BV1N24y1y7a1/?p=74&spm_id_fro

2024-03-26 23:29:18 1080

原创 面试题知识点笔记-MySQL内部技术架构

可以把另外的数据库的表映射到我们的数据库里,就是把表关系引用过来,但是数据在另外一边,需要数据时发送请求访问,但实际情况尽量不要跨库join,尽量用中间件。在5.7之中,接受sql查询后,只用进行权限验证,通过缓存查询,不需要经过优化器也不用和存储引擎交互。如果表几乎没有写操作,都是高频读操作,就选myisam,除此之外其他业务都是INNODB。高性能表结构,查询效率高,不支持事务,一般用于系统存储的表。全能,支持事务,支持回滚,默认引擎 ,支持行锁。缓存和缓冲,我们更倾向用缓冲,

2024-03-26 19:01:38 475

原创 MVC-Web开发中maven依赖导入以及xml配置

【代码】MVC-Web开发中maven依赖导入以及xml配置。

2024-03-25 23:19:08 375 1

原创 面试题知识点笔记-MySQL索引

个人学习笔记,记录了MySQL面试时索引相关知识,学习视频来自https://www.bilibili.com/video/BV1N24y1y7a1?p=46&vd_source=6d6a08fa1171692d2a6f755b358208be

2024-03-25 23:12:48 1153 1

原创 Spring5-IDEA版学习笔记

使用idea学习spring心得总结,学习视频:https://www.bilibili.com/video/BV1WE411d7Dv/?p=13&spm_id_from=pageDriver&vd_source=6d6a08fa1171692d2a6f755b358208be

2024-03-08 18:56:47 827 1

原创 Java学习-Mysql(下)

https://www.bilibili.com/video/BV1NJ411J79W?p=45&spm_id_from=pageDriver&vd_source=6d6a08fa1171692d2a6f755b358208be

2023-10-03 16:32:37 299

原创 Java学习-Mysql(上)

与之类似,MD5就可以为任何文件(不管其大小、格式、数量)产生一个同样独一无二的MD5“数字指纹”,如果任何人对文件做了任何改动,其MD5也就是对应的“数字指纹”都会发生变化。4、强抗碰撞:已知原数据和其MD5值,想找到一个具有相同MD5值的数据(即伪造数据)是非常困难的。3、抗修改性:对原数据进行任何改动,哪怕只修改1个字节,所得到的MD5值都有很大区别。1、压缩性:任意长度的数据,算出的MD5值长度都是固定的。INNODB:安全,事务处理,,多表多用户操作。2、容易计算:从原数据计算出MD5值很容易。

2023-10-01 17:01:08 263

原创 Java学习-多线程

java多线程学习笔记,学习平台:https://space.bilibili.com/95256449/channel/seriesdetail?sid=393820&ctype=0

2023-09-26 18:25:47 518

原创 JavaSE复习part2——常用API方法

选自https://www.nowcoder.com/tutorial/10001/2f5a72b422684791bdf15b0c3d1ee4e4

2023-09-22 15:32:51 119 1

原创 JavaSE学习——基本语法

记录了我复习java的学习摘要,参考资料来自https://www.nowcoder.com/tutorial/10001/3ee2166743c941b3a80b948614997f74和菜鸟的java教程,本文章主要讲述了java的基础语法;

2023-07-22 21:52:46 110

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除