- 博客(162)
- 资源 (7)
- 问答 (3)
- 收藏
- 关注
原创 【学习笔记】蒙特卡洛与强化学习
视频链接:https://www.bilibili.com/video/BV1SV4y1i7bW文章目录[蒙特卡洛方法] 02 重要性采样(importance sampling)及 python 实现Basics实现重要性采样[蒙特卡洛方法] 03 接受/拒绝采样(accept/reject samping)初步 cases 分析BasicsExamples采样效率[蒙特卡洛方法] 04 重要性采样补充,数学性质及 On-policy vs. Off-policyp(x)p(x)p(x) v.s. q(
2024-12-23 23:02:19
547
原创 【学习笔记】科学计算
然后我们换一种方式,使用num_workers为CPU核的一半,并使用pin_memory。另一个是JIT(Just-In-Time compilation) )减少分页内存和pin memory的swap。
2024-11-18 23:56:47
1097
原创 【学习笔记】pytorch分布式
这么一来,我们可以清楚地看到,Megatron-3中,一共有4个Allgather和4个reduce-scatter算子。乍一看,通信的操作比Megatron-1 2都多得多,但其实不然。因为一般而言,一个Allreduce其实就相当于1个Reduce-scatter和1个Allgather,所以他们的总通信量是一样的。关于all reduce可参考https://zhuanlan.zhihu.com/p/469942194,本质上是一个优化节点数据通信的算法,实现是比较容易的,阿里巴巴的ACCL。
2024-11-18 23:56:28
1045
原创 【学习笔记】大模型调优(llms_tuning)
项目地址:GitHub@chunhuizhang/llms_tuning文章目录01 TRL SFTTrainer 中的 formatting_func 与 DataCollatorForCompletion02 accelerate ddp 与 trl SFTTrainer03 finetune_llama3_for_RAG04 optimizer Trainer 优化细节(AdamW,grad clip、Grad Norm)等05 StackLlama、SFT+DPO(代码组织、数据处理,pipel
2024-11-18 23:56:01
973
原创 【学习笔记】量化概述
所谓那些int4模型,就是每个权重都由16个离散值表示,int8就是64个,以此类推,这个主意之前bf16, float32, float16的具体表征,三者都有1bit用来存符号,bf16跟float32的区别在于小数位减少,float16则两者都变少,分别是1+8+7,1+8+23,1+5+10,比如同样一个0.1234,三者的结果就是0.1235351…,0.1234000…,而75505则对应75505,inf,75264,即bf16是做了一个权衡,能表示很大的数,但是精度不够。
2024-11-18 23:55:27
749
原创 【日常】爬虫技巧进阶:textarea的value修改与提交问题(以智谱清言为例)
Everything's okay, and so are you, sxy
2023-11-17 23:22:07
1707
1
原创 【论文阅读】2022年最新迁移学习综述笔注(Transferability in Deep Learning: A Survey)
愚公移山
2022-07-03 01:02:45
17018
6
【日常】手写三层反向传播神经网络(损失函数交叉熵+正则项+反向求导)附件
2019-04-28
2018年全国大学生数学建模大赛B题
2018-10-09
Supply Chain Management_Strategy, Planning and Operations_5th Edition 高清英文版
2018-09-25
Supply Chain Management_Strategy, Planning and Operations_5th Edition 英文版
2018-09-13
Introduction to probability models_Sheldon M.Ross.pdf 第11版英文版
2018-09-13
TA创建的收藏夹 TA关注的收藏夹
TA关注的人