
算法学习
zjnlswd
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
强化学习书籍
链接::上海交大。原创 2025-07-15 17:45:40 · 135 阅读 · 0 评论 -
什么是强化学习(RL)--3
先初始化actor,和环境互动,得到trajectories.让老师与环境做互动,然后得到trajectories.然后这个reward function评估老师的要得到高分,评估actor的比较低。射击游戏cs,这个游戏中,被射击扣分,射击到敌人加分,为了防止机器一直原地转圈圈不去攻击,所以活着给一个很小的负的reward。但是人类和机器看到的有可能不一样,比如转弯的时候人类可以顺利的转弯,但是机器没转过去的画面机器没看到过。基本原则是老师的行为是最好的,老师的行为可以得到最高的reward。原创 2025-07-11 17:12:51 · 384 阅读 · 0 评论 -
什么是强化学习(RL)--2
为什么呢,因为这里At>0 表示这个执行这个action 得到的reward 比随机action得到的reward大。所以应该是用平均减去平均,version4 如下图。由于这里输入都是游戏画面,前面的部分可能处理差不多,所以actor和critic有一部分共用的network。得到的中间几个值,然后关键v(st)和v(st+1)的关系,得到之差越接近rt越好,从而估算。但是这里有个问题,这里Gt-hat是执行一次at得到的结果,举例:按照两种方法得到值如下可能是0或者是3/4。不一定代表大多数情况。原创 2025-07-10 17:29:39 · 292 阅读 · 0 评论 -
PPO 学习笔记
由于很多游戏可能reward总是大于等于零,这样话就无论是怎么做都会提升这个action的几率.但是action是sample得到的,有可能某些种类的action没有sample到,这样这个没有采样到的可能相比其他就变小了概率。一场游戏的总的reward的期望值是上面这个式子,代表不同情况下发生的概率乘以这个情况的total reward.tip2:整场游戏是好的,不代表每个action都是好的,整场游戏不好,不代表每个action都不好。的话,根据p分布得到的值是负的,而q分布得到的值是正的。原创 2025-07-10 14:27:35 · 296 阅读 · 0 评论 -
什么是强化学习(RL)-1
所以RL非常的耗时间。这里操作游戏的是actor, observation是游戏画面,action是左右移动或者开火,这里得到的分数是reward。采取一个action之后会得到新的画面,也就得到新的observation,然后根据新的画面采取新的action,比如这时候开火,reward得到分数杀掉外星人。这里的network是有随机性的,actor的输出是采样得到,env是一个黑盒(怎么产生输出不知道,下围棋,你的对手怎么下子你是不知道的),所以RL输出随机性很大,同样的输入输出也可以不一样。原创 2025-07-08 17:55:23 · 514 阅读 · 0 评论 -
attention is all you need论文学习 transformer
Query和key是等长的,他门做内积作相似度,内积值越大相似度越高,内积值为0 两个相量垂直了没有相似度.Query和每个key作内积后的值除根号keys的维度.然后通过softmax函数得到权重0实际中用两次矩乘法实现。编码器和解码器,编码器输入多个token,输出每个token的编码向量,解码器的输入是token的编码向量,输出是转换的向量,转换的维度不一定和编码器的输入token长度一样,引文如果是翻译,不同语言翻译后是不同的长度。layernorm,是每个数据的特征做均值为零方差为1。原创 2025-02-09 23:53:10 · 528 阅读 · 0 评论 -
llama3学习
首先是预训练部分,数据注意版权和风险问题。数据去重和数据清理,PII人的身份信息(人名、地址等)。如果数据有大量PII数据则这个数据丢掉。原创 2025-01-30 11:28:06 · 245 阅读 · 0 评论 -
hunyuan 混元学习
训练了不同的模型去选择数据,比如用Dover去选择美观度比较好的数据,用其他模型去选择清晰度高的模型等。判断motion大小(比如静止的)把不合适的视频去掉。用OCR模型把带有很多字的视频拿掉。background\style等关键词,还用了dropout设置多样性更多的captions使得描述格式不会太固定。虽然拿掉了很多数据,但是数据多样性高也好,所以用个小模型去测试那个去掉视频的操作好。也进行了模型切断,用拉普拉斯算子找到最清晰的一帧作为训练的起始。也是进行了复杂的视频选择。同movie gen.原创 2025-01-29 21:15:23 · 388 阅读 · 0 评论 -
Sora学习
基于用户做成personalized video.多个模型创新和简化.首先看下数据,他们用的数据对于video来说是1一亿左右的量级,对于图像来说更多。style preset:定义一个style,能把视频都变成这个style.以前可能每个style都要训练一个模型,现在只需要给出prompt,就可以得到想要的效果,简化了视频制作的速度。sora大概用了三种数据,一个是公开的数据,一个是通过合作伙伴得到的私有数据,一个是内部使用的数据。loop:视频头尾剪辑生成一个无限循环的视频,不停翻卷的海浪。原创 2025-01-27 21:56:51 · 449 阅读 · 0 评论 -
Deepseek V3
MTP是今年Meta的论文。原创 2025-01-27 19:17:59 · 118 阅读 · 0 评论 -
mamba论文学习
vision mamba (lianghui zhu等)速度和准确性都比transformer的模型更好,mamba占用资源是线性的,但是transformer是更大的占用资源,所以mamba能更好的。mamba(2024)改进SSM,训练快,testing快(相比transformer,test chatgpt就不会卡了),改进了硬件中的算法。速度上也比基于transformer的快,下图中右下的图。(弹幕说通俗来讲是提取非连续特征的问题传统的SSM是实现是通过卷积实现,只能提取连续特征)原创 2025-01-26 19:01:50 · 321 阅读 · 0 评论 -
Gpt2-7结束
原创 2024-08-19 16:09:06 · 477 阅读 · 0 评论 -
Andrej karpathy讲gpt 2-2
原创 2024-07-29 11:11:32 · 344 阅读 · 0 评论 -
Andrej karpathy讲gpt 2
原创 2024-07-23 09:23:34 · 445 阅读 · 0 评论 -
CLIP论文学习
学习来自B站bryanyzhu。原创 2024-05-23 15:44:01 · 427 阅读 · 0 评论 -
ViLT学习
多模态里程碑式的文章,总结了四种多模态方法,根据文字和图像特征特征抽取方式不通。文章的贡献主要是速度提高了,使用了数据增强,文本的mask。学习自b站朱老师的论文讲解。原创 2024-05-23 08:57:53 · 388 阅读 · 0 评论 -
Dalle2学习
Dalle2 mini有GitHub库并且有网页可以直接测试。原创 2024-05-21 17:34:05 · 562 阅读 · 0 评论 -
Stable diffusion论文学习ddpm
模型学习已知噪声 ,学习自b站人工智能AI课程。原创 2024-05-20 16:13:36 · 202 阅读 · 0 评论 -
迭代去噪算法推导
原创 2022-10-18 10:54:14 · 300 阅读 · 0 评论 -
图像重建常用数据库
高清图像数据集和有雾图像数据集原创 2022-08-23 22:42:00 · 352 阅读 · 0 评论 -
关键点算法综述学习
原文pdf网址:Monocular Human Pose Estimation: A Survey of Deep Learning-based Methods (arxiv.org)知乎已有博主的翻译:2020 Pose Estimation人体骨骼关键点检测综述笔记(有空更新) - 知乎 (zhihu.com)原创 2020-12-10 17:34:52 · 303 阅读 · 0 评论 -
csdn学院程序员的数学学习笔记编写梯度下降法程序python,求解线性参数
import numpy as npimport matplotlib.pyplot as pltX = np.array([np.ones(100),np.random.rand(100)])y= np.dot([4,3],X)+np.random.rand(100)plt.scatter(X[1,:],y)alpha = 0.1num_iters=1000def gradient_descent(theta, X ,y ,alpha, num_iters): loss_hi.原创 2020-08-06 10:38:42 · 248 阅读 · 0 评论 -
【转】多尺度模板匹配
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。 本文链接:https://blog.youkuaiyun.com/sazass/article/details/89634427...转载 2020-05-07 00:03:56 · 1117 阅读 · 0 评论 -
csdn学院程序员的数学学习笔记--共轭梯度方法python
#共轭梯度法import numpy as npdef conj_grad(A,b,n): #n = b.shape[0] xs=[] rs=[] ps=[] alphas=[] x0=np.random.rand(b.shape[0]) xs.append(x0) r0=b-A.dot(x0) rs.append(r0) p0=r0 ps.append(p0) .原创 2020-08-06 10:40:15 · 287 阅读 · 0 评论 -
图像去噪算法分析
1、n2n noise2noise我暂时理解的意思是这个模型训练的时候还是需要干净的图像的使用干净的图像加噪声作为输入图像,输出图像也是加了噪声的图像然后相当于训练编码器和解码器程序可以参考的链接:https://blog.youkuaiyun.com/weixin_36474809/article/details/86600925?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-2原创 2020-05-20 22:52:41 · 785 阅读 · 0 评论 -
BN与LRN,RGAN
LRN:https://blog.youkuaiyun.com/hjimce/article/details/50866313局部相应归一化BN:http://www.cnblogs.com/houkai/p/6553186.htmlbatch normalize:https://arxiv.org/abs/1502.03167--------------------------------RGAN:ga...原创 2018-07-05 12:09:10 · 1042 阅读 · 0 评论 -
重要的人工智能会议
ICLR International Conference on Learning Representations原创 2018-07-11 17:35:34 · 477 阅读 · 0 评论 -
resnet论文学习
作者:SnailTyan链接:https://www.jianshu.com/p/f3b8141ac43b來源:简书著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。Deep Residual Learning for Image RecognitionAbstractDeeper neural networks are more difficult to train. We p...转载 2018-06-01 11:56:53 · 215 阅读 · 0 评论 -
YOLO学习
yolo1将图像分成7*7个小块,每个小块有两个boundingbox(每个bounding有5个值,x,y,w,h,和置信度),一共有20个类别7*7*(2*5+20)输出写的很详细的介绍yolo V1,V2, V3https://zhuanlan.zhihu.com/p/47575929yolo2参考这个文章https:/...原创 2018-06-06 18:12:14 · 318 阅读 · 0 评论 -
YOLO数据转化
YOLO数据转化1、将labelimg转化为xml2、将xml转化为txt1、code(python)来源见网址:https://blog.youkuaiyun.com/kapok_lalala/article/details/78990996#! /usr/bin/pythonimport os, sysimport globfrom PIL import Image#ICDAR image pathsrc...转载 2018-06-12 10:15:00 · 1113 阅读 · 0 评论