- 博客(37)
- 收藏
- 关注
原创 大模型面试手撕代码题1——梯度下降
为了让本文读者理解的更加清晰,我顺着思路一步步给各位读者讲一下。第二步:为了完成本次的梯度下降算法,我们要简单的生成一部分数据。这里面b1就是我们的k,b0就是我们传统意义上的b。本文以线性回归作为出发点开始我们的梯度下降的讲解。其实逻辑一缕清楚,就没那么难了。第一步:导包(这一步必须的)第三步:计算损失函数。第四步:更新参数函数。
2024-10-31 19:24:29
328
原创 python中日志如何保存
在Python中,print函数的输出是通过sys.stdout这个标准输出流来实现的。默认情况下,sys.stdout指向控制台(也就是终端窗口)。当您执行print("Hello, World!")时,实际上是调用了sys.stdout.write("Hello, World!\n")。因此,如果我们能够。
2024-10-23 20:47:03
583
2
原创 使用 argparse 模块解析命令行参数的完整示例
在机器学习和深度学习的项目中,通常需要通过命令行参数来配置训练、验证和测试的各种参数。我们将以一个文本分类任务为例,展示如何使用 argparse 模块定义和解析命令行参数,并在训练脚本中使用这些参数来配置模型的训练过程。• 调用 parser.parse_args() 解析命令行参数,返回一个包含所有参数的命名空间对象 config。parser.parse_args():解析命令行参数,返回一个包含参数的命名空间对象。• 通过命令行参数,可以在不修改代码的情况下,调整模型的训练、验证和测试参数。
2024-10-23 20:18:27
1115
原创 git lfs问题(下载大模型的时候出的问题)
你尝试在你的系统上运行 git lfs install 命令,但收到了错误信息指出 lfs 不是一个有效的 Git 命令。这通常意味着 Git Large File Storage(Git LFS)工具没有被安装在你的系统上。Git LFS 是一个用来处理大文件的扩展工具,它可以让 Git 更有效地处理大型二进制文件。要解决这个问题,你需要先安装 Git LFS。
2024-10-23 20:15:40
1872
原创 百度翻译开放平台如何调用API
url = 'https://fanyi-api.baidu.com/api/trans/vip/translate' ##如果报错应该是没开通服务。secret_key = 'XXXX' # 替换为你的Secret Key。app_id = 'XXXX' # 替换为你的App ID。text = input("请输入要翻译的文本:")
2024-09-01 16:08:29
273
原创 优化器SGD、Adam和AdamW的区别和联系
AdamW是Adam的变体,用来处理大型数据集,它以一定的比率来缩减模型参数的梯度,从而减少计算量,提高训练速度。随机梯度下降是最简单的优化器,它采用了简单的梯度下降法,只更新每一步的梯度,但是它的收敛速度会受到学习率的影响。因此,SGD和Adam是构建模型优化的常用方法,而AdamW是他们的变体,用于处理大型数据集。简单性,在优化算法中没有太多的参数需要调整,通过少量的计算量就可以获得比较好的结果。Adam是改进的SGD,它加入了更新的动量和自适应的学习率,可以帮助更快地收敛。
2024-09-01 16:02:23
503
原创 phpstudy中的mysql无法启动,启动就马上停止
今天在安装完最新版的phpstudy后,点击启动MySQL和NginxNginx可以正常启动,但是MySQL无法正常启动,点击启动之后不久就会停止,如下图所示:正在启动和停止的时间仅差1秒。在网上找了一圈,发现就是冲突的问题。之前一直用的是 2018 版的phpstudy,相当于本地已经有了mysql服务,但是一台设备无法同时跑两个mysql。解决办法也很简单就是把本地的mysql服务删了。
2024-09-01 15:56:17
858
原创 终端常用命令
mv dir1 dir2MAC没有重命名的命令。移动/重命名---文件/文件夹。显示当前目录下的详细内容。使用匹配表达式查找文件。使用默认的程序打开文件。显示当前目录下的内容。显示当前目录下的内容。含点(.)开头的文件。删除文件 或 空目录。删除一个 非空 目录。
2024-09-01 15:54:57
273
原创 大模型面试题3
定义:批量大小是指一次推理中处理的样本数量。影响:较大的批量大小可以提高GPU利用率,减少单位时间内执行的批次数量,从而提高整体吞吐量。但是,过大的批量大小可能会导致显存溢出。调节:根据可用的显存容量,可以适当增加批量大小来提高推理速度。通过上述参数的调节,可以有效地提高大模型在推理过程中的性能。这些调节可以根据具体的硬件配置、模型类型和应用场景来定制,以达到最佳的性能和资源利用。在指令微调(Instruction Tuning)中,选择最佳的指令策略对于提升模型的效果至关重要。
2024-09-01 15:53:47
959
原创 大模型面试题2
Transformer为何使用多头注意力机制?(为什么 不使用一个头)Transformer为什么Q和K使用不同的权重矩阵生 成,为何不能使用同一个值进行自身的点乘?Transformer计算attention的时候为何选择点乘而 不是加法?两者计算复杂度和效果上有什么区 别?为什么在进行softmax之前需要对attention进行 scaled(为什么除以dk的平方根),并使用公式 推导进行讲解在计算attention score的时候如何对padding做 mask操作?为什么在进行多头注意力的时候需
2024-09-01 15:52:44
424
原创 如何区分精确率(precision)、准确率(accuracy)和召回率(recall)
1、精确率是针对我们预测结果而言的,它表示的是预测为正的样本中有多少是真正的正样本。那么预测为正就有两种可能了,一种就是把正类预测为正类(TP),另一种就是把负类预测为正类(FP),也就是。2、召回率是针对我们原来的正样本而言的,它表示的是正例样本中有多少被预测正确了。那也有两种可能,一种是把原来的正类预测成正类(TP),另一种就是把原来的正类预测为负类(FN)。3、准确率是针对我们原来所有样本而言的,它表示的是所有样本有多少被准确预测了。FP,预测是正样本,预测错了。TP,预测是正样本,预测对了。
2024-09-01 15:48:48
225
原创 Pytorch详解NLLLoss和CrossEntropyLoss、以及softmax和log_softmax
转载:http://t.csdnimg.cn/eUeqW
2024-07-08 16:44:42
139
原创 Window中的Git Bash工具
除了Git命令外,Git Bash还提供了一系列Unix工具和命令,如ls、cd、grep、awk、sed等,这对于习惯Linux或MacOS环境的开发者来说非常便利,:Git Bash基于MSYS,这是一个小型的MinGW和GNU环境,它为Windows系统提供了一个Unix-like的层,支持运行更多复杂的shell脚本和程序。:Git Bash允许用户通过命令行界面执行Git命令,进行版本控制操作,比如初始化仓库、添加文件、提交更改、分支管理、合并代码、推送和拉取代码等。
2024-04-29 20:43:12
772
1
原创 如何在Pycharm中打开Jupyter notebook本地路径
如果存在端口被占用问题,直接在jupyter-remote-localhost那里配置端口8889或者其他端口,然后在自己的文件中(这里就是ML)中的configured Server中配置相同的地址,就可以连上了。也就是说如果我们把文件放到这个文件夹下面并用pycharm打开,是读取不到的,所以我们要更改jupyter notebook设置;在虚拟机里面打开jupyter notebook,然后复制地址到ML(我的文件名是ML)中,进行连接就可以了。
2024-02-16 17:08:38
549
1
原创 容器类型(字符串、列表、元组、字典、集合)之常用函数
容器类型(字符串、列表、元组、字典、集合)之常用函数及公共函数和运算符,包含详细代码讲解,全网最详细学习宝地。看这一篇文章就够了
2023-12-04 11:50:17
987
1
原创 类属性和对象中的属性混淆概念,计算的时候容易模糊不清
很多同学在定义类和对象的时候会混淆类属性和对象属性,这里我将带大家一起详细的了解一下,进行计算的时候会蒙
2023-12-01 18:05:25
471
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人