Are_you_ready-优快云博客

原创 Attend-and-Excite: Attention-Based Semantic Guidance for Text-to-Image Diffusion Models

这是基于观察得出的，即在早期的去噪步骤中，每个主体的空间位置就已经确定[Hertz et al. 2022;图12展示了这一点，我们比较了我们的Attend-and-Excite技术，其中我们要么在所有时间步上修改潜在（上），要么仅在前25个时间步上修改（下）。给定一个提示（例如“一头戴着皇冠的狮子”），我们提取主题标记（狮子，皇冠）及其对应的At_2,At_5个注意力图。在GSN过程中，我们在去噪过程的每个时间步上稍微调整潜在代码，以便鼓励潜在代码更好地考虑从输入文本提示传递的语义信息。

2024-05-07 22:20:37 765

原创 StreamingT2V

现有方法大多集中在生成高质量的短视频（通常为 16 或 24 帧），当简单地扩展到长视频合成时，会出现硬切换（hardcuts）StreamingT2V，是一种用于生成 80、240、600、1200 帧或更多帧具有平滑过渡的长视频的自回归方法一种短期记忆块，称为条件注意力模块（conditional attention module，CAM），它通过注意机制将当前生成与从先前块（chunk）提取的特征相关联，从而实现一致的块过渡。

2024-05-06 19:34:28 1237

原创 Ranni: Taming Text-to-Image Diffusion for Accurate Instruction Following

对于颜色，我们已经得到了一个颜色索引列表。然后，我们设置一个大小为156的二进制向量（与调色板大小相同），并为给定的颜色索引设置值为1。对于边界框，我们在与图像潜在形状相同的形状上绘制一个二进制掩码。将框的坐标调整到潜在空间，即原始值的1/8。然后，我们将掩码中框内的所有位置设置为值1。我们使用与主文本到图像模型相同的CLIP权重，但采用全局句子嵌入而不是词嵌入。对于关键点，我们绘制一个与框相同的二进制掩码。对于每个点，我们绘制一个半径为6的圆，并在圆内设置值为1。

2024-05-06 19:31:23 1120

原创 GAMES Webinar 317-渲染专题-图形学 vs. 视觉大模型｜Talk+Panel形式

sora如此强大，传统图形学是否与到了大挑战？闫令琪：它是有缺陷的，比如会凭空多东西，少东西，这些缺陷可能在这个时代，在sora表现这么好的情况下，可以容忍，但它是不好解决的，因为它是神经网络控制的，不是那么可控。sora它现在是一个快速发展阶段，但它一定会进入瓶颈期的，包括传统的渲染生成，也进入过瓶颈期，也就是从0到90，快速发展，但最后10是很难完成的，比如比较好的控制，小瑕疵的解决。

2024-04-07 13:57:42 830

原创 MotionCtrl: A Unified and Flexible Motion Controller for Video Generation

在视频中，运动主要包括由相机运动引起的相机运动和由物体运动引起的物体运动。对这两种运动的精确控制对于视频生成至关重要。然而，现有的工作要么主要关注一种类型的运动，要么没有明确地区分两者，从而限制了其控制能力和多样性。

2024-03-11 20:56:07 1293

原创微软模拟飞行器回放功能

参考b站up主，欢迎大家去关注：https://www.bilibili.com/video/BV1Z34y1P7zz/?下载网址：https://flightsim.to/file/8163/flight-recorder坠毁检测禁用掉。

2024-03-11 17:21:15 1234

原创 LVDM（Latent Video Diffusion Models for High-Fidelity Long Video Generation）

这个操作就是不拿z0进行条件化，而是拿任意时间s（s属于时间步t内的值），zs作为训练期间的条件，即不是拿zi0去做条件，而是拿zis去做条件。尽管上述分层生成方式可以减少自回归步骤的数量，以克服质量下降的问题，但为了生成足够长的视频样本，更多的预测步骤是必不可少的。因此，我们提出了一个条件潜在扩散模型，该模型可以以自回归的方式根据前一个潜在码生成未来潜在码，以促进长视频的生成。给每个编码帧添加一个掩码m，m为1则为条件帧，需要将这个帧替换为没有加噪的帧，也就是替换为zi0。感觉也是在分层插帧那用到。

2024-03-11 10:06:50 1279

翻译 DDPM代码复现

主要参考这个博主的代码。

2023-12-18 10:34:36 654 1

原创一些损失函数的学习

当在做一个机器学习目标函数时，用交叉熵或KLD单独来看效果是一样的，因为信息熵如果是一个delta(one-hot)分布，那它的值就是0，如果是一个非delta分布，那它也是一个常数，常数对于神经网络的参数更新是没有任何贡献的，所以优化交叉熵loss和KLDloss效果是一样的，只不过数值上不一样(如果目标是delta分布，那数值也一样，这个时候用KLD时把target转换为one-hot向量就可以了)例如，如果一个随机变量只能取一个值，那么其熵为0，因为这个事件发生的概率是1，没有不确定性。

2023-11-20 11:04:26 283

原创 DDPM的学习

训练集数据集,像midjourney、stable diffusion、DALL都是用的第三个数据集50多亿张训练图片。训练部分的修改，也是在去噪过程中将文章资料给Denoising Model，这代表Denoising有三个输入。而Noising Predicter部分也直接加入文字资料。直接将文字输入到Denoising Model。还是需要文字标签和图片两种信息的资料。

2023-11-20 10:47:30 336

原创多个环境的anaconda中jupyter只有一个Python 3 (ipykernel)解决办法

问题：anaconda中建了多个环境，但无论用哪个环境打开jupyter notebook后，新建notebook时都只有一个Python 3（ipykernel），而且在其它环境中下载的包，用这个Python 3（ipykernel）无法使用，例如：创建的opencv环境中的包显示不存在。用这个Python 3（ipykernel）创建的notebook显示没有我在opencv环境下下载的包，如图。命令切换到想添加的环境下，name为环境名。

2023-07-18 22:05:42 5941 6

原创卷积神经网络各种经典模型--下篇

此外，在 Inception v3 之后，还加入了一种称为 “分支并行结构” 的设计，可以在不同的分支中使用不同的卷积核大小和数量，以进一步提高模型的性能。它的核心是使用 Inception 模块来构建网络结构，每个 Inception 模块由多个不同的卷积层组成，这些卷积层并行执行，并将它们的输出连接在一起，以产生更丰富的特征表示。Inception 是由 Google 提出的卷积神经网络模型，它的核心思想是使用多个不同大小的卷积核来捕捉不同尺度的特征，以提高模型的性能和准确性。

2023-04-04 12:38:04 196

原创卷积神经网络CNN每一层结果

https://poloclub.github.io/cnn-explainer/

2023-04-03 21:21:38 158

原创卷积神经网络各种经典模型--上篇

LeNet，全名LeNet-5，是由Yann LeCun、Leon Bottou、Yoshua Bengio和Patrick Haffner于1998年设计的卷积神经网络（CNN）架构。LeNet包含七个层，包括三个卷积层和两个子采样（池化）层。该网络的输入是数字图像，输出是对该数字的分类预测。在训练过程中，LeNet使用反向传播算法来调整网络中的参数，以最小化分类误差。LeNet的设计对现代深度学习技术有着深远的影响，奠定了卷积神经网络在图像处理领域的基础。

2023-04-03 17:36:09 483

原创机器学习中的正则

需要注意的是，L1和L2正则化都是在损失函数中加入一个正则化项，目的是使模型的权重不要过大，从而避免模型的过拟合。L1正则化和L2正则化的不同点在于，L1正则化可以产生稀疏权重矩阵，而L2正则化不会产生稀疏权重矩阵。常用的正则项包括L1正则化和L2正则化，它们分别基于模型参数的绝对值和平方值来惩罚模型的复杂度。L2正则化对权重的更新是连续的，没有不连续的点，因此可以用于梯度下降等基于导数的优化算法中。L1正则化对权重的更新是不连续的，即对于某些权重会直接变为0，因此可以用于稀疏性特征的处理。

2023-04-03 17:26:48 341

原创卷积层里的多输入多输出通道

如果图像的输入是一个RGB类型图像，那么就么ci=3，如果是个灰色图像那么ci=1。每一个nh × nw都要对应一个kh × kw，算出的结果对应相加形成mh × mw。当输入有第三维ci时，想要输出的也有三维，那么就要再加一个co维，co为几可以认为有几个卷积核，最后生成对应的几个特征图。

2023-04-03 15:36:42 116

原创在卷积神经网络中如何解决梯度下降时的局部最优解问题

1、更深的网络结构：深度越深的神经网络通常有更多的参数，因此有更大的空间可以搜索全局最优解。5、自适应学习率：自适应学习率可以根据每个参数的历史梯度值来调整学习率大小，从而更好地平衡全局和局部优化。3、预训练网络参数：预训练可以将网络的参数初始化到接近全局最优解的位置，这样可以更快地收敛到全局最优解。2、数据增强：数据增强可以增加数据量，减少过拟合的发生，从而减少陷入局部最优解的可能性。4、正则化：正则化可以限制模型的复杂度，减少过拟合的风险，从而更好地避免陷入局部最优解。

2023-03-30 22:24:29 1110

原创 jupyter notebook使用遇到的一些问题

jupyter notebook中’ModuleNotFoundError: No module named ‘numpy.testing.nosetester解决：https://blog.youkuaiyun.com/dianxinlaozong/article/details/109641087新建时：Bad file descriptor然后闪退解决：https://www.jianshu.com/p/1a0e079af453

2022-02-23 11:20:27 328

原创一个串的不同子串数量&串的后面添加操作

题目：https://www.acwing.com/problem/content/2574/题意：首先给一个空串s，然后每次往串的后面添加一个数字，问每次添加完后，不同的子串的数量是多少，总共添加n次，所以要输出n行结果。题解：首先考虑一个固定的串，有多少个不同的子串，因为所有的子串就是所有的后缀的所有前缀，那么求出后缀数组，每一个sa[i]和上面不同前缀的数量就是和前面每一个sa的最大公共前缀，然后用len[i]减去这个值就是答案，然后又因为，这个值其实就是height[i]的值(仔细想想就可以理解

2021-11-17 21:07:16 331

原创无向图中字典序最小欧拉路径

题目：https://www.acwing.com/problem/content/1126/题意：给一个无向图，点的编号最多为500，边数最多为1024，首先输入一个m代表边的数量，然后让输出字典序最小的欧拉路径(字典序最小—经过点的编号字典序最小)。题目保证至少有一个欧拉路径。题解：搜索的时候，从编号小的点开始搜即可。#include <bits/stdc++.h>//#define int long long#define pb push_back#define pii pai

2021-11-04 11:14:06 560

原创欧拉回路&欧拉路径

题目：https://www.acwing.com/problem/content/1186/

2021-11-04 10:34:26 157

原创树上启发式合并

题目：https://www.acwing.com/problem/content/description/3191/题意：一颗由n个节点组成的树，1号节点为树的根节点，每个节点都有一个颜色Ci，一颗树中颜色出现次数最多的那个颜色称为主要颜色，一颗树的主要颜色可能不止一种，现在要求出，以每个节点为根节点的树的主要颜色之和。例如某节点的主要颜色有C1和C2，那么以这个节点为根节点的树的答案就是C1+C2题解：树上启发式合并在dfs搜的过程中，每搜到一个节点，以这个节点为根节点的树，先去搜它的轻儿子，搜

2021-10-16 21:23:02 149

原创 D. The Strongest Build(set&优先队列&结构体里面有数组)

题目：http://codeforces.com/contest/1574/problem/D题意：有n组数，每一组有C[i]个数，每一组组内已经从小到大排好序，然后现在让你在每一组里面选出一个数，让他们的和最大，输出你选每一组里面的下标，现在你肯定想，选每一组里面最大的就可以了，确实这是最大的答案。但是现在又有m个限制条件，每一个限制条件，给出n个数，这n个数对应每一组，组里面的下标，然后这个组合是不能被选为答案的。题目保证输入合法，并且保证一定存在一个组合可以作为答案(每一组都要有被选上的数)，如果

2021-09-27 21:05:52 243

原创区间内的数不包含某个数字的数的个数（数位dp）

题目：https://www.acwing.com/problem/content/1087/题意：大概意思就是给一个区间[n,m]，问这个区间内的数，不包含4并且不包含62的数的个数。例如，62315,73418,88914都不行，61152就可以。1≤n≤m≤10^9题解：数位dp。和之前的几道数位dp题思路完全一样，只是预处理的f数组不同，这里的f数组也比较好推。f[i][j]表示总共有i位，最高位为j且满足题目要求的所有的方案数，预处理dp的时候注意不要包含4，和62即可。#includ

2021-09-10 21:08:21 1286

原创 HDU - 6156(区间内的数是回文串的个数)（数位dp）

题目：https://vjudge.ppsucxtt.cn/contest/455985#problem/G题意：有T组数据。数的区间[L,R]，在进制区间[l,r]内是回文串的个数。意思就是给一个数的区间[L,R]，然后又给了一个进制区间[l,r]，问在数的区间内，转化成对应的进制后，有多少个数是回文串，是回文串的话，给答案的贡献就是那个进制，否则就是1。比如3在十进制是个回文串，对答案的贡献就是10.它转化成2进制后是11，也是回文串，对答案的贡献是2。1<=T<=1e5，1<=L

2021-09-09 15:57:04 295

原创某区间内的数的各位之和取模后为0的数量（数位dp）

题目：https://www.acwing.com/problem/content/1086/题意：某人又命名了一种取模数，这种数字必须满足各位数字之和 mod N 为 0。现在大家又要玩游戏了，指定一个整数闭区间 [a.b]，问这个区间内有多少个取模数。1≤a,b≤2^31 - 1 , 1≤N<100。题解：数位dp。首先，数位dp常规做法，只不过求左子树的时候，不太好求，求左子树的时候需要预处理一个dp数组，就是f[i][j][k]，表示总共有i位，最高位是j，取完模后是k的所有合法的数的数

2021-09-06 21:31:02 465

原创某区间内相邻两位之差至少为2的数的个数（数位dp）

题目：https://www.acwing.com/problem/content/1085/题意：Windy 定义了一种 Windy 数：不含前导零且相邻两个数字之差至少为 2 的正整数被称为 Windy 数。Windy 想知道，在 A 和 B 之间，包括 A 和 B，总共有多少个 Windy 数？ 1≤A≤B≤2×10^9样例：[1 10]–9 [25 50]–20题解：数位dp。首先：数位dp老套路，要求[l,r]内符合题目限制的数的个数，那么只需要求出[0,r]的个数和 [0,l-

2021-09-06 20:01:24 418

原创区间内位数大小不降的个数（数位dp）

题目：https://www.acwing.com/problem/content/1084/题意：某人命名了一种不降数，这种数字必须满足从左到右各位数字呈非下降关系，如 123，446。现在大家决定玩一个游戏，指定一个整数闭区间 [a,b]，问这个区间内有多少个不降数。1≤a≤b≤2^31 - 1题解：数位dp。首先：要求[l,r]内符合题目限制的数的个数，那么只需要求出[0,r]的个数和 [0,l-1]的个数，两个相互一减，就是[l,r]的个数。其次：从最高位开始分析，假设最高位是x，如果这

2021-09-06 17:01:40 342

原创 2021-08-19

#include<bits/stdc++.h>#define fo(i, x, y) for(int i = x, _b = y; i <= _b; i ++)#define ff(i, x, y) for(int i = x, _b = y; i < _b; i ++)#define fd(i, x, y) for(int i = x, _b = y; i >= _b; i --)#define ll long long#define pp printf#def

2021-08-19 21:25:18 84

原创线段树（区间最大公约数&区间修改&差分）

题目：https://www.acwing.com/problem/content/247/题意：给定一个长度为 N 的数列 A，以及 M 条指令，总共两种情况：1、C l r d，表示把 A[l],A[l+1],…,A[r] 都加上 d。2、Q l r，表示询问 A[l],A[l+1],…,A[r] 的最大公约数(GCD)。对于每个询问输出一个值N≤500000,M≤100000, 1≤A[i]≤1018, |d|≤1018，不会超longlong题解：最大公约数支持交换律和结合律，所以我可以

2021-08-09 10:17:42 383

原创线段树（求最大连续子段和）

题目：https://www.acwing.com/problem/content/246/题意：给一个长度为n序列，两个操作1、单点修改2、查询区间最大连续子段和m个操作N≤500000,M≤100000,−1000≤A[i]≤1000#include <bits/stdc++.h>//#define int long long#define pb push_back#define pii pair<int, int>#define mpr make_pair

2021-08-07 21:25:47 359

原创线段树（单点修改&求区间最大值）

题目：https://www.acwing.com/problem/content/1277/题意：给定一个正整数数列 a1,a2,…,an，每一个数都在 0∼p−1 之间。可以对这列数进行两种操作：1、添加操作：向序列后添加一个数，序列长度变成 n+1；2、询问操作：询问这个序列中最后 L 个数中最大的数是多少。程序运行的最开始，整数序列为空。一共要对整数序列进行 m 次操作。输入格式：第一行有两个正整数 m,p，意义如题目描述；接下来 m 行，每一行表示一个操作。如果该行的内容是 Q

2021-08-07 15:37:58 403

原创 Splay（n个splay的合并--splay+并查集+启发式合并）

题目：https://www.acwing.com/problem/content/1065/题意：长度为n的数组，每个下标都有一个价值v(范围也是1-n,每个数的价值都都不同)。这n个下标之间可以建边，当建边以后他们就属于一个集合，求某个下标所在的集合里面的第k小的数的编号。初始输入一个n和m，n是n个点，m是初始就有的m条边，然后q个询问，每次询问要么建边要么询问某个下标所在集合的第k小的数的下标。n≤100000,m≤n,q≤300000题解：splay+并查集+启发式合并这个题其实只有两个

2021-08-07 10:56:45 494

原创 Splay(动态找第k大的数&添加数&删除小于某个数的所有数)

题目：https://www.acwing.com/problem/content/952/题意：公司有一个最低工资限度m，如果某个员工的工资小于m，它将会离开公司，再也不会回来(意味着删除数)1、招一个员工，有一个初始工资k（意味着着添加数，当然k要>=m）2、给所有员工同时涨薪 + k3、给所有员工同时减薪 - k4、输出在剩余员工中找出第k数(工资第k大)输出文件的最后一行包含一个整数，为离开公司的员工的总数。注意，如果某个员工的初始工资低于最低工资标准，那么将不计入最后的答案内(

2021-08-06 21:43:00 360

原创 Splay(区间翻转)

题目：https://www.acwing.com/problem/content/2439/题意：给定一个长度为 n 的整数序列，初始时序列为 {1,2,…,n−1,n}，序列中的位置从左到右依次标号为 1∼n。在要对该序列进行 m 次操作，每次操作选定一个子序列 [l,r]，并将该子序列中的所有数字进行翻转。题解：用splay去维护整个数组的信息，splay维护的永远都是中序遍历，这个中序遍历就是现在这个数组1-n分别存的信息。#include <algorithm>#include

2021-08-06 17:24:48 926 1

原创电力（点的双连通分量&求最大割点）

题目：https://www.acwing.com/problem/content/1185/题意：给定一个由 n 个点 m 条边构成的无向图，请你求出该图删除一个点之后，连通块最多有多少。tarjan求割点板子#include <algorithm>#include <bitset>#include <cmath>#include <cstdio>#include <cstdlib>#include <cstring>

2021-08-04 21:06:06 109

原创冗余路径（无向图的边的双连通分量）

冗余路径：https://www.acwing.com/problem/content/397/题意：给一个无向连通图，问最少加几条边可以让这个图变成边的双连通图题解：有向图的强连通分量：最少加几条边，可以让这个图变成，强连通图，p是入度为0的点，q是出度为0的点。无向图的边双连通分量：最少加几条边，可以让这个图变成，边的双连通图，cnt是叶子节点的数量，也就是度数为1的点的数量。#include <algorithm>#include <bitset>#includ

2021-08-04 20:17:16 461

原创最大半连通子图(有向图的强连通分量&dp)

题目：https://www.acwing.com/problem/content/1177/题意：一个有向图 G=(V,E) 称为半连通的 (Semi-Connected)，如果满足：∀u,v∈V，满足 u→v 或 v→u，即对于图中任意两点 u,v，存在一条 u 到 v 的有向路径或者从 v 到 u 的有向路径。若 G′=(V′,E′) 满足，E′ 是 E 中所有和 V′ 有关的边，则称 G′ 是 G 的一个导出子图。若 G′ 是 G 的导出子图，且 G′ 半连通，则称 G′ 为 G 的半连通子

2021-08-04 15:55:56 497

原创受欢迎的牛（有向图的强连通分量）

题目：https://www.acwing.com/problem/content/1176/题意：如果A–》B，B–》C，那么A–》C，问在这个有向图中有多少个这样的A，除了A个点外的所有点都能有路走到A。题解：暴力做法，就是枚举每一个点，看一下其他所有点是否都能到这个点，这个时间复杂度是n方级别的，肯定不行。如果这个图有拓扑序列的话，那么按照这个拓扑序列走一遍，看看有一个出度为0的点，如果有一个出度为0的点，那么其它所有点就一定能走到这个点，但是这个图可能有环，所以它不一定有拓扑序列。但是又可以

2021-08-04 10:32:51 148

原创祖孙询问（最近公共祖先&倍增lca）

题目：https://www.acwing.com/problem/content/1174/题意：给定一棵包含 n 个节点的有根无向树，节点编号互不相同，但不一定是 1∼n。有 m 个询问，每个询问给出了一对节点的编号 x 和 y，询问 x 与 y 的祖孙关系.输入：输入第一行包括一个整数表示节点个数；接下来 n 行每行一对整数 a 和 b，表示 a 和 b 之间有一条无向边。如果 b 是 −1，那么 a 就是树的根；第 n+2 行是一个整数 m 表示询问个数；接下来 m 行，每行两个不同的正整数

2021-08-03 10:51:59 162

空空如也

空空如也