行走的小骆驼-优快云博客

原创大模型面试手撕代码题2——多头注意力机制

【代码】大模型面试手撕代码题2——多头注意力机制。

2024-11-01 16:12:22 196

原创大模型面试手撕代码题1——梯度下降

为了让本文读者理解的更加清晰，我顺着思路一步步给各位读者讲一下。第二步：为了完成本次的梯度下降算法，我们要简单的生成一部分数据。这里面b1就是我们的k,b0就是我们传统意义上的b。本文以线性回归作为出发点开始我们的梯度下降的讲解。其实逻辑一缕清楚，就没那么难了。第一步：导包（这一步必须的）第三步：计算损失函数。第四步：更新参数函数。

2024-10-31 19:24:29 328

原创如何在本地建立模型并创建自己的 API Key 供他人使用

如何在本地建立模型并创建自己的 API Key 供他人使用

2024-10-23 20:50:29 4750

原创 python中日志如何保存

在Python中，print函数的输出是通过sys.stdout这个标准输出流来实现的。默认情况下，sys.stdout指向控制台（也就是终端窗口）。当您执行print("Hello, World!")时，实际上是调用了sys.stdout.write("Hello, World!\n")。因此，如果我们能够。

2024-10-23 20:47:03 583 2

原创 python处理csv数据常用操作

python处理csv数据常用操作

2024-10-23 20:44:46 189

原创使用BERT和XLNet进行评论好坏分类

使用BERT和XLNet进行评论好坏分类

2024-10-23 20:43:09 307

原创深入理解 GPT-2 Medium：输入到输出的每一层维度变化

深入理解 GPT-2 Medium

2024-10-23 20:40:17 1440

原创 BERT 的 12 层维度变化详解：从输入到输出的逐步剖析

BERT 的 12 层维度变化详解

2024-10-23 20:38:08 1740

原创理解BERT的词向量及其初始化参数的一致性

理解BERT的词向量及其初始化参数的一致性

2024-10-23 20:32:34 1255

原创本地文件推送到GitHub上出错：Permission denied

本地文件推送到GitHub上出错：Permission denied

2024-10-23 20:20:23 736

在机器学习和深度学习的项目中，通常需要通过命令行参数来配置训练、验证和测试的各种参数。我们将以一个文本分类任务为例，展示如何使用 argparse 模块定义和解析命令行参数，并在训练脚本中使用这些参数来配置模型的训练过程。• 调用 parser.parse_args() 解析命令行参数，返回一个包含所有参数的命名空间对象 config。parser.parse_args()：解析命令行参数，返回一个包含参数的命名空间对象。• 通过命令行参数，可以在不修改代码的情况下，调整模型的训练、验证和测试参数。

2024-10-23 20:18:27 1115

原创 git lfs问题（下载大模型的时候出的问题）

你尝试在你的系统上运行 git lfs install 命令，但收到了错误信息指出 lfs 不是一个有效的 Git 命令。这通常意味着 Git Large File Storage（Git LFS）工具没有被安装在你的系统上。Git LFS 是一个用来处理大文件的扩展工具，它可以让 Git 更有效地处理大型二进制文件。要解决这个问题，你需要先安装 Git LFS。

2024-10-23 20:15:40 1872

原创百度翻译开放平台如何调用API

url = 'https://fanyi-api.baidu.com/api/trans/vip/translate' ##如果报错应该是没开通服务。secret_key = 'XXXX' # 替换为你的Secret Key。app_id = 'XXXX' # 替换为你的App ID。text = input("请输入要翻译的文本：")

2024-09-01 16:08:29 273

原创优化器SGD、Adam和AdamW的区别和联系

AdamW是Adam的变体，用来处理大型数据集，它以一定的比率来缩减模型参数的梯度，从而减少计算量，提高训练速度。随机梯度下降是最简单的优化器，它采用了简单的梯度下降法，只更新每一步的梯度，但是它的收敛速度会受到学习率的影响。因此，SGD和Adam是构建模型优化的常用方法，而AdamW是他们的变体，用于处理大型数据集。简单性，在优化算法中没有太多的参数需要调整，通过少量的计算量就可以获得比较好的结果。Adam是改进的SGD，它加入了更新的动量和自适应的学习率，可以帮助更快地收敛。

2024-09-01 16:02:23 503

原创 CHAIN和*的妙用

4、map与chain和*结合使用。2、"chain"的使用。3、chain和*结合使用。

2024-09-01 15:57:38 178

原创 phpstudy中的mysql无法启动，启动就马上停止

今天在安装完最新版的phpstudy后，点击启动MySQL和NginxNginx可以正常启动，但是MySQL无法正常启动，点击启动之后不久就会停止，如下图所示：正在启动和停止的时间仅差1秒。在网上找了一圈，发现就是冲突的问题。之前一直用的是 2018 版的phpstudy，相当于本地已经有了mysql服务，但是一台设备无法同时跑两个mysql。解决办法也很简单就是把本地的mysql服务删了。

2024-09-01 15:56:17 858

原创终端常用命令

mv dir1 dir2MAC没有重命名的命令。移动/重命名---文件/文件夹。显示当前目录下的详细内容。使用匹配表达式查找文件。使用默认的程序打开文件。显示当前目录下的内容。显示当前目录下的内容。含点(.)开头的文件。删除文件或空目录。删除一个非空目录。

2024-09-01 15:54:57 273

原创大模型面试题3

定义：批量大小是指一次推理中处理的样本数量。影响：较大的批量大小可以提高GPU利用率，减少单位时间内执行的批次数量，从而提高整体吞吐量。但是，过大的批量大小可能会导致显存溢出。调节：根据可用的显存容量，可以适当增加批量大小来提高推理速度。通过上述参数的调节，可以有效地提高大模型在推理过程中的性能。这些调节可以根据具体的硬件配置、模型类型和应用场景来定制，以达到最佳的性能和资源利用。在指令微调（Instruction Tuning）中，选择最佳的指令策略对于提升模型的效果至关重要。

2024-09-01 15:53:47 959

原创大模型面试题2

Transformer为何使用多头注意力机制？（为什么不使用一个头)Transformer为什么Q和K使用不同的权重矩阵生成，为何不能使用同一个值进行自身的点乘？Transformer计算attention的时候为何选择点乘而不是加法？两者计算复杂度和效果上有什么区别？为什么在进行softmax之前需要对attention进行 scaled(为什么除以dk的平方根)，并使用公式推导进行讲解在计算attention score的时候如何对padding做 mask操作？为什么在进行多头注意力的时候需

2024-09-01 15:52:44 424

原创如何区分精确率(precision)、准确率(accuracy)和召回率（recall）

1、精确率是针对我们预测结果而言的，它表示的是预测为正的样本中有多少是真正的正样本。那么预测为正就有两种可能了，一种就是把正类预测为正类(TP)，另一种就是把负类预测为正类(FP)，也就是。2、召回率是针对我们原来的正样本而言的，它表示的是正例样本中有多少被预测正确了。那也有两种可能，一种是把原来的正类预测成正类(TP)，另一种就是把原来的正类预测为负类(FN)。3、准确率是针对我们原来所有样本而言的，它表示的是所有样本有多少被准确预测了。FP，预测是正样本，预测错了。TP，预测是正样本，预测对了。

2024-09-01 15:48:48 225

sdsasaAAS的博客

原创大模型面试手撕代码题2——多头注意力机制

原创大模型面试手撕代码题1——梯度下降

原创如何在本地建立模型并创建自己的 API Key 供他人使用

原创 sh传参 & 打印日志全流程最全讲解

原创 python中日志如何保存

原创传统机器学习回归预测高级用法

原创 python处理csv数据常用操作

原创使用BERT和XLNet进行评论好坏分类

原创 XLNet 模型结构详细解析：从输入到输出的维度变化

原创深入理解 GPT-2 Medium：输入到输出的每一层维度变化

原创 BERT 的 12 层维度变化详解：从输入到输出的逐步剖析

原创 BERT的结构与输出详解

原创理解BERT的词向量及其初始化参数的一致性

原创 GitHub上传文件

原创本地文件推送到GitHub上出错：Permission denied

原创使用 argparse 模块解析命令行参数的完整示例

原创 git lfs问题（下载大模型的时候出的问题）

原创百度翻译开放平台如何调用API

原创优化器SGD、Adam和AdamW的区别和联系

原创 CHAIN和*的妙用

原创 phpstudy中的mysql无法启动，启动就马上停止

原创终端常用命令

原创大模型面试题3

原创大模型面试题2

原创如何区分精确率(precision)、准确率(accuracy)和召回率（recall）

原创大模型常见面试题

原创 Pytorch详解NLLLoss和CrossEntropyLoss、以及softmax和log_softmax

原创 Jupyter 如何使用之前anaconda之前创建好的环境

原创 Window中的Git Bash工具

原创超参数和参数的区别

原创如何在Pycharm中打开Jupyter notebook本地路径

原创用VLookup实现多个工作表格内同时查找

原创 python绘图遇到汉字及负号乱码怎么办

原创容器类型（字符串、列表、元组、字典、集合）之常用函数

原创 python连接数据库判断输入的id在数据库中是否存在

原创类属性和对象中的属性混淆概念，计算的时候容易模糊不清

原创 python怎么连接数据库

空空如也

空空如也