aFakeProgramer
Adaptive AUTOSAR的技术专家,2024 AUTOSAR中国官方TOP培训讲师,具备深厚的汽车行业知识和以太网通信技能。SOME/IP、IPC、DDS、DoIP、UDS、TSN和SOA架构,MQTT,加密,操作系统,v2x,以及c++和Python编程语言。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
手把手带你搞懂Transformer核心原理!从翻译任务入门
现在我们的词向量已经通过线性变换映射为了QKV,维度不变,现在我们让q1和k2做点积,代表第一个词和第二个词的相似度,同理类推,得到的系数再与v相乘,最后相加,得到的a1就是包含了全部上下文信息的第一个词的新词向量。首先,为了让输入包含每个词之间的位置信息(前后顺序等),给每个词一个位置编码,表示这个词在整个句子中出现的位置,把这个位置编码加到原来的词向量中,现在这个词就有了位置信息。单个注意力头不够灵活?训练时用掩码遮挡后面的词,比如输出"我"的时候,模型只能看到"我"之前的内容,完美模拟真实推理场景!原创 2025-08-15 11:51:57 · 14 阅读 · 0 评论 -
第5节 循环神经网络 RNN(Recurrent Neural Network)
《从词嵌入到Transformer:文本处理的神经网络演进》 摘要:文本处理需要将文字转化为数字表示。传统方法如one-hot编码存在维度问题,而词嵌入技术通过训练生成适中维度的词向量,有效捕捉语义关联。为解决序列数据处理,循环神经网络(RNN)引入隐藏状态传递时序信息,但仍面临长期依赖丢失和顺序计算效率低的问题。后续改进的GRU、LSTM通过门控机制部分缓解了这些问题,而Transformer架构则彻底突破顺序计算限制,实现并行处理,成为更先进的自然语言处理方案。这一演进过程展现了神经网络在文本处理领域的原创 2025-08-15 11:24:04 · 43 阅读 · 0 评论 -
池化操作详解:从原理到实例
比如某个窗口数据中最大值是2,就把2留下;向右滑动(步长=窗口大小=2),下一个窗口最大值是4,再滑一下找到6...最后6×6的图就变成了3×3的新特征图,超神奇!还是2×2窗口+步长2,把覆盖的4个数据求平均比如某窗口数据平均值是0.5,就把0.5留下,一步步滑动后同样得到3×3的特征图,是不是超容易理解!池化和卷积是CNN中的好拍档!最最重要的是——池化窗口没有参数!假设我们有一张6×6的特征图,用2×2的池化窗口来操作,超直观的例子来啦!第一,池化窗口大小和步长通常是相等的(案例中都是2);原创 2025-08-14 16:17:44 · 35 阅读 · 0 评论 -
第3节 深度学习避坑指南:从过拟合到玄学优化
我们只需要在原来的损失函数的基础上加上被调整参数本身,这样当参数调整让损失函数减小的幅度甚至不如参数本身增大的幅度,新的损失函数就是增大的,这次调整显然就是不合适的。神经网络的训练通过调整参数来让模型逼近真实数据,如果模型在向着过拟合的方向发展,那我们停止训练就好了,这样也能一定程度上避免过拟合。除了加上参数本身之外,我们还可以加上参数的平方和,这样在参数大的时候,抑制的效果就更强了。),就可以得到更多数据,还可以让模型的鲁棒性更强,不会因为输入的一点波动而产生很大的结果差异。早停大法:训练别贪杯!原创 2025-08-14 14:45:32 · 362 阅读 · 0 评论 -
第2节 如何计算神经网络的参数:AI入门核心逻辑详解
小结:我们通过前向传播根据输入x计算输出y,再根据反向传播计算损失函数 关于每个参数的梯度,每个参数都向梯度的反方向变化一点,这个就是神经网络的一次训练。计算前一层的时候用到的偏导数的值,后面也会用到(更左边的层),所以可以让这些值从右向左传播,这个过程就叫做。表示的是预测值与真实值的误差,而我们的目标就是让误差最小,也就是可以让损失函数L最小的w和b。为了评估整体的拟合效果,我们将这些线段的长度相加,这样就得到了预测数据与真实数据的总的差异。把损失函数记为L,从参数的视角看,L就是一个关于w、b的函数。原创 2025-08-14 11:20:06 · 258 阅读 · 0 评论 -
第4节 神经网络从公式简化到卷积神经网络(CNN)的进化之路
一个 3×3 核扫全图,比全连接层高效 N 倍!原创 2025-08-14 15:42:52 · 480 阅读 · 0 评论 -
计算机如何进行“卷积”操作:从图像到矩阵的奥秘
卷积核的移动和计算,本质上是通过稀疏矩阵(大量0元素)与输入向量的乘法实现的,而那些非零数字就是计算机需要不断学习优化的“关键密码” 是不是突然觉得卷积操作没那么神秘了?它会把4×4的图像“拉平”成一个16个数字组成的行向量(想象把16个像素值排成一行),而最终2×2的输出特征图也会先变成4个数值的列向量,之后再“重组”回去。假设输入是一个4×4的图像,使用3×3的卷积核,在步长为1的情况下,根据公式计算,输出特征图的大小会变成2×2!3×3的卷积核会被改造成一个4行16列的特殊矩阵!原创 2025-08-14 16:05:53 · 110 阅读 · 0 评论 -
Deepseek使用技巧
R1是一个推理模型,其输出内容以token为单位,而非特定字数,这使得要求其生成固定字数的内容较为困难。一次问答中,R1只能存储约3万到4万个中文字符。RAG(检索增强生成)技术则通过结合检索和生成模型,提升模型在问答任务中的表现,能够更有效地处理大量信息并生成更准确的回答。原创 2025-05-09 15:51:27 · 135 阅读 · 0 评论 -
在AI大模型领域,现在有哪些典型的指令模型?有哪些典型的推理模型,他们分别有哪些特点?
2025年,AI大模型在指令模型与推理模型领域展现出显著的分化与融合趋势。指令模型如OpenAI GPT-4.5、阿里云通义千问2.5和百度文心一言4.0,专注于精准执行用户指令,适用于合同审核、营销文案生成和医疗报告结构化等场景。推理模型如Anthropic Claude3.7 Sonnet、DeepSeek R1和Google Gemini2.0,则强调逻辑推导和复杂问题分解,适用于数学、编程和工业质检等领域。未来趋势包括指令与推理模型的融合、硬件协同优化以及开源生态的竞争,推动AI技术在更多场景中的应原创 2025-05-09 14:38:51 · 165 阅读 · 0 评论 -
线性回归模型
是一种常见的机器学习模型,用于预测一个连续的目标变量(也称为响应变量)与一个或多个自变量之间的线性关系。在该模型中,自变量和目标变量之间的关系可以表示为一条直线的函数。该模型的目标是找到最佳的直线,使得预测结果与实际结果之间的误差最小。线性回归模型通常使用进行训练,即通过最小化预测值与真实值之间的平方误差来确定最佳拟合直线的参数。该模型的优点是简单易用,易于解释和理解。它在许多实际应用中都表现良好,如房价预测、等。然而,线性回归模型也有一些限制,例如它只能处理线性关系,对于非线性关系的效果不佳。原创 2025-01-17 10:16:44 · 110 阅读 · 0 评论 -
机器学习——10分钟搞明白梯度下降法
梯度下降是一种强大的优化算法,通过迭代更新参数来最小化目标函数。它是机器学习和深度学习的核心工具之一,理解其原理和变种对于构建和训练模型至关重要。原创 2025-01-16 18:03:18 · 659 阅读 · 0 评论 -
机器学习——什么是代价函数? 下
那有没有一种方法让拟合直线是否理想这件事变得可以量化呢?针对那一堆训练集里面对应的是已知的,如果把训练集中的每个代入我们用于拟合的那个直线的公式中都可以得到一个估计值,这个估计值和实际值之差的平方,可以衡量我们估计值和实际值的偏差情况。我们如果把所有m个偏差的平方给它们求和,就会得到一个数,这个数呢,可以衡量我们的拟合曲线对所有的已知训练点的偏差情况。如果有办法把这个和降到最低呢,我们也就找到了那条最中庸,也是最适合用来做这个房子买卖这件事的预测直线。对上面的方差函数变一下形,原创 2025-01-16 15:54:52 · 523 阅读 · 0 评论 -
学习AI大模型的小白入门建议和具体的学习方法推荐
我是一名在汽车行业工作的嵌入式系统工程师,现在我想进入人工智能领域,特别是大型语言模型。说到人工智能,我是一个完全的新手,所以我需要弄清楚从哪里开始。通过遵循这个计划,你将逐步建立必要的技能和知识,以使用人工智能和大型语言模型,即使有嵌入式系统的背景。接下来,我需要学习神经网络,因为它们是深度学习和大型模型的基础。最后,我需要为我的学习之旅设定现实的目标和里程碑。实践经验将是必不可少的。总的来说,这是一段重要的学习之旅,但通过结构化的方法和持续的努力,我可以在人工智能和大型语言模型方面打下坚实的基础。原创 2025-01-15 15:04:29 · 914 阅读 · 0 评论 -
机器学习——什么是代价函数?
在一元线性回归中,模型是一个直线方程,形式为 hθ(x)=θ0+θ1xhθ(x)=θ0+θ1x,其中 θ0θ0 和 θ1θ1 是模型参数,分别代表截距和斜率。他说通过平移坐标系,让θ0=0,那可能是在说如果我们选择一个新的变量x' = x - x_bar,其中x_bar是x的均值,那么新的模型可能没有截距项。这是在说,不同的参数θ对应不同的直线,而每个θ对应的成本函数值是一个点。总之,这段话主要想表达的是,通过定义一个代价函数,把寻找最佳模型参数的问题转化为一个优化问题,即最小化代价函数。原创 2025-01-16 13:36:43 · 464 阅读 · 0 评论 -
机器学习:监督学习与非监督学习
监督学习:使用带标签的数据,目标是预测。无监督学习:使用无标签的数据,目标是发现结构。选择哪种方法取决于数据的标签情况和任务需求。原创 2025-01-15 17:52:24 · 409 阅读 · 0 评论 -
机器学习是什么?
机器学习是什么?原创 2025-01-15 17:00:56 · 771 阅读 · 0 评论 -
简单聊一聊什么是量化?
量化是将大模型中的高精度浮点数(如 fp16、bf16、fp32)转换为低精度整数(如 int4、int8)表示的过程。这种转换可以显著降低模型的内存占用和计算资源需求,从而提高运行效率。量化是一个重要的技术,通过降低模型的表示精度来节省资源和提高效率。关键词包括量化位数、量化误差、量化缩放因子、量化精度、量化训练、量化感知训练等。在实际应用中,需要根据具体情况选择合适的量化方法,并进行 careful tuning 以保持模型性能。原创 2025-01-15 15:12:58 · 1055 阅读 · 0 评论 -
大模型开发与应用实战
能用prompt解决就不用RAG, 能用RAG解决就不用微调。原创 2025-01-10 15:55:25 · 173 阅读 · 0 评论 -
【AI大模型入门书籍】小白入门大模型死磕这三本书籍就对了!!
链接:https://pan.quark.cn/s/73fbb2b38ab7。我用夸克网盘分享了「大模型入门资料」,点击链接即可保存。原创 2025-01-08 15:20:54 · 254 阅读 · 0 评论 -
机器学习,生成式AI ,LLM大模型,人工智能,他们之间的关系是什么?有什么不同?
这些模型(如GPT-4)在大量文本数据上进行训练,可以生成自然语言文本,完成文本补全、翻译、问答等任务。典型的生成式AI模型包括生成对抗网络(GANs)、变分自动编码器(VAEs)和自回归模型(如GPT)。是一个广义的概念,指的是计算机系统能够执行通常需要人类智能才能完成的任务,如感知、学习、推理、决策和自然语言处理。是人工智能的一个子集,涉及计算机系统使用数据和算法进行自我学习和改进。是人工智能的一个子集,专注于利用数据和算法进行自我改进。是生成式AI的一个具体应用,专注于自然语言的生成和处理。原创 2024-11-06 16:24:54 · 1015 阅读 · 0 评论 -
人工智能该如何学习
看了一个小视屏,做的一个笔记。人工智能专业选择兴趣驱动,不要盲目跟风!1、需要数学基础微积分、线性代数、概率论和数理统计2、一门合适的语言,推荐python3、学习算法的几个层次看懂和理解原理 看懂代码 自己写经典算法 自己改算法认定目标 每天把小目标定下来,去细分,真的想做一件事的时候,一定要制定计划,并且坚持完成分解100个小目...原创 2020-03-14 15:50:14 · 317 阅读 · 0 评论