- 博客(72)
- 资源 (2)
- 问答 (1)
- 收藏
- 关注
原创 Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model(2024,8)
本质是将LLM的transformer和图像中的diffusion结合了起来,使用同一个transformer来同时处理文本和图像信息.之前的DiT架构都是使用一个预训练的TextEncoder来提取文本信息,并通过Concat、AdaLN、架构改进:论文还探讨了Transfusion模型的不同变体,包括使用不同大小的图像补丁、不同的编码/解码架构(线性层与U-Net块),以及限制图像噪声的程度,以提高特定任务的性能。这允许图像内的每个补丁能够相互注意,同时只能注意序列中先前出现的文本或图像补丁。
2024-09-04 23:03:11
1425
原创 Towards Robust Blind Face Restoration with Codebook Lookup Transformer(NeurIPS 2022) | Codeformer
这篇论文试图解决的是盲目面部恢复(blind face restoration)问题,这是一个高度不确定的任务,通常需要辅助指导来改善从低质量(LQ)输入到高质量(HQ)输出的映射,或者补充输入中丢失的高质量细节。上图给出了为什么使用VQVQE,因为VAE输出的Embedding是连续的,包含的潜空间太大,而VQVAE可以看作聚类,从LQ->HQ的映射,为了保证图像质量,我们希望这个映射空间较小,从而更可能生成高质量的图像.,更有利于模型学习.CodeFormer也可以用于图像编辑之类的.
2024-09-04 22:57:58
665
原创 RestoreFormer++: Towards Real-World Blind Face Restoration from Undegraded Key-Value Pairs(IEEE,2023
VQVAE部分.VQVAE在Encoder和Decoder中间的潜空间进行的,并且VQVAE的输出作为Decoder的Q来进行Cross Attention,作者认为之间构建的Facial Component Dictionary并没有包含足够的语义信息,通过VQVAE进行编码的ROHQD能够包含更多的细节信息.动机:认为之前的模型都只关注了图像的纹理信息,而忽视了人脸的细节信息,本文采用多尺度、交叉注意力的方式引入模型的语义信息.TODO:之后在做超分的任务时可以关注一下这个EDM构造数据集的做法.
2024-09-04 22:56:17
401
原创 ControlNeXt: Powerful and Efficient Control for Image and Video Generation(2024,8)
ControlNeXt Paper Reading
2024-08-19 21:23:40
758
原创 CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer
清华 智普最新T2V模型,CogVideoX,能生成480x720的6s fps=8视频,经过测试位于第二梯队,弱于快手可灵,Luma等模型
2024-08-15 23:40:00
1090
原创 IP、ID一致性论文阅读
IP一致性:指的是给定输入的图像,要求保持图像中的ID不变,IP可能是Identity Property,要求能够识别出是同一个身份。目前通过IP的一致性技术,可以用于短视频短剧上,是一个新兴的市场技术。
2024-07-29 10:48:23
1081
1
原创 Scaling Vision Transformers to 22 Billion Parameters
Vision Transformer(ViT)的大规模扩展:尽管Transformer架构在自然语言处理(NLP)领域取得了巨大成功,但在计算机视觉(CV)领域,尤其是图像和视频建模方面,尚未实现与语言模型相当的规模扩展。论文提出了ViT-22B,这是一个具有220亿参数的Vision Transformer模型,是目前最大的密集ViT模型。训练稳定性和效率:在扩展ViT模型到22亿参数的过程中,作者遇到了训练不稳定性的问题。
2024-07-21 20:34:31
954
原创 ChatGLM: A Family of Large Language Models from GLM-130B to GLM-4 All Tools(2024.7.16)
ChatGLM-4 最新论文阅读
2024-07-18 18:13:37
1125
原创 PIXART-α: FAST TRAINING OF DIFFUSION TRANSFORMER FOR PHOTOREALISTIC TEXT-TO-IMAGE
PIXART-α: FAST TRAINING OF DIFFUSION TRANSFORMER FOR PHOTOREALISTIC TEXT-TO-IMAGE 简介
2024-07-18 18:09:02
332
原创 经典的卷积神经网络的pytorch实现(LeNet、AlexNet、VGGNet、NiN、GoogleNet、ResNet、DenseNet)
经典的卷积神经网络的pytorch实现
2022-06-14 23:17:06
763
原创 计算机系统-大作业
本文以hello.c文件为案例,详细地分析了程序在Linux、Window操作系统下的运行过程,分别从硬件、软件、用户、内核等各个方面阐述了程序的运行过程,并在适当的过程中给出相应的程序截图。本文主要按照《CS:APP》的章节顺序进行展开,从低层次到高层次逐渐理解操作系统的各个机制和工作原理。关键词:操作系统、Linux、程序 目 录第1章 概述 - 4 -1.1 Hello简介 - 4 -1.2 环境与工具 - 4 -1.3 中间结果 - ...
2022-05-20 11:18:17
402
原创 Linux c语言实现简单的CLI(command line interpreter)
这是标准答案#include "wish.h"#include <ctype.h> // isspace#include <regex.h> // regcomp, regexec, regfree#include <stdio.h> // fopen, fclose, fileno, getline, feof#include <stdlib.h> // exit#include <sys/types.h>#include &
2022-04-02 12:54:59
3381
4
原创 TensorFlow中常见的CallBack
文章目录TensorFlow中常见的CallBackTensorboardCheckpointEarlystopingCSVLoggerLearningRateScheduler定义CallBack类TensorFlow中常见的CallBackTensorboardmodel = build_model(dense_units=256)model.compile( optimizer='sgd', loss='sparse_categorical_crossentropy',
2022-03-07 21:07:25
2137
原创 使用Tensor Flow自定义Hidden Layer
文章目录Lambda Layer定义类Lambda Layer使用keras.layers提供的Lambda layer APImnist = tf.keras.datasets.mnist(x_train, y_train),(x_test, y_test) = mnist.load_data()x_train, x_test = x_train / 255.0, x_test / 255.0如下:model = tf.keras.models.Sequential([ tf.ke
2022-03-02 20:19:27
336
原创 使用tensorflow自定义loss函数
文章目录定义python函数wrapper类定义python函数 def my_huber_loss(y_true, y_pred): error = y_true - y_pred is_small_error = tf.abs(error) <= threshold small_error_loss = tf.square(error) / 2 big_error_loss = threshold * (tf.abs(err
2022-03-02 18:22:38
2566
原创 人脸识别基础(FaceNet)
文章目录Face verification VS Face recoginitionEncoderTriplet Loss主要思路参考FaceNet论文:FaceNet: A Unified Embedding for Face Recognition and Clustering以及吴恩达视频Face verification VS Face recoginition对于人脸验证,我们完全可以将之看作为一个二分类问题,但人脸识别发展到现在,我们依然用人脸识别的方法来解决。Encoder我们
2022-02-14 19:08:13
2395
原创 目标检测础知识(Object Detection)
文章目录Object LocalizationSliding Window Detection(Convolutional implementation)YOLO(you only look once)Iou (intersection over union)Anchor BoxesNon-Max SupressionObject Localization定位一个物体,要求我们输入一个图片,输出一个物体对应的方位。XConvNet→[Pcbxbybhbw...one_hot]X\quad \und
2022-02-10 22:34:46
1778
原创 MobileNet_v2 with transfer learning(修改Mobile_v2 模型)
文章目录载入数据数据增强(Data Augmentation)载入模型,并使用迁移学习修改模型载入数据从文件夹中载入图片BATCH_SIZE = 32IMG_SIZE = (160, 160)directory = "dataset/"train_dataset = image_dataset_from_directory(directory, shuffle=True,
2022-02-08 13:35:30
1808
原创 使用TensorFlow Function构建ResNet
文章目录原理Identity BlockConvolutional BlockResNet(50 layers)原理Residual Network的基本原理就是跳跃传播,和传统的CNN网络(作为Residual Network的mainly road),Residaul 添加了新的传播通道(shortcut),具体可以参看下面的图片:中间加入BN层提高速度(As you want)shortcut具体跳跃几个层由自己决定,一般总的层数越多,跳跃的也越多。shortcut份两种,一种是X
2022-02-08 13:16:56
687
原创 使用Sequential,Function API 构建简单CNN
文章目录SequentialFunction API的简单使用SequentialSequential支持straightforward式的叠加中间层,他通过简单将每一层放置在当前最顶层来对中间层进行叠加,具体的内容可以参照官方文档# GRADED FUNCTION: happyModeldef happyModel(): """ Implements the forward propagation for the binary classification model:
2022-02-08 11:38:22
981
原创 使用numpy构建CNN(前向和反向传播)
构建CNN中padding(填充)(只会对长和宽进行填充)# GRADED FUNCTION: zero_paddef zero_pad(X, pad): """ Pad with zeros all images of the dataset X. The padding is applied to the height and width of an image, as illustrated in Figure 1. Argument: X.
2022-02-06 14:35:42
464
原创 TensorFlow基础介绍(底层构造神经网络)
使用tf.Variable,tf.constant指定不同类别的占位符# GRADED FUNCTION: linear_functiondef linear_function(): """ Implements a linear function: Initializes X to be a random tensor of shape (3,1) Initializes W to be a random tensor of sh.
2022-02-04 09:27:20
1135
1
原创 优化方法(optimization method)Momentum、RMSprop、Adam、LearningRate Decay
文章目录指数加权平均值Exponentially weighted averages带动量的梯度下降方法(Gradient Descent with Momentum)RMSprop(Root mean sqare propagate)Adam学习率下降(Learning Rate Decay)几种优化方法的比较源数据传统梯度下降带动量的梯度下降AdamGD+ LearningRate DecayMomentum + LearningRate DecayAdam + LearningRate Decay指
2022-02-03 22:00:02
1459
原创 梯度检验(gradients checking)
文章目录3 - How does Gradient Checking work?Backpropagation computes the gradients ∂J∂θ\frac{\partial J}{\partial \theta}∂θ∂J, where θ\thetaθ denotes the parameters of the model. JJJ is computed using forward propagation and your loss function.Because
2022-01-28 15:06:11
1410
原创 正则化方法(Regularization)
文章目录add penaltyinverted dropoutadd penalty即在最后的cost_function中加入penalty,常用的有L1,L2,leakyL1等惩罚。L1:Loss(X∣W,b)=loss(X∣W,b)+λ∑l=1L∣∣Wij∣∣L1:\\ Loss(X|W,b) = loss(X|W,b) + \lambda\sum_{l=1}^{L}||{W_{ij}}||L1:Loss(X∣W,b)=loss(X∣W,b)+λl=1∑L∣∣Wij∣∣L2:Loss
2022-01-28 14:08:00
197
原创 Different initialization in the NN
文章目录zeros initializationrandom initializationHe initialization以下面数据为例zeros initialization将所有的权重矩阵赋值为0# GRADED FUNCTION: initialize_parameters_zeros def initialize_parameters_zeros(layers_dims): """ Arguments: layer_dims -- python array
2022-01-28 13:14:46
105
原创 CNN模型压缩——使用网络稀疏化方法(Learning Effcient Convolutional Network through Network Sliming)
文章目录IntroductionRelated Work网络稀疏化(Network Slimming)why choose chennel-level sparsifyhow to implement在模型中加入BN(Batch Normalization)层本文中的方法来自于论文《Learning Effcient Convolutional Network through Network Sliming》论文:Learning Effcient Convolutional Network throu
2022-01-20 21:21:51
3718
原创 tensorflow实现简单RNN
使用简单RNN预测谷歌的股票实验数据import numpy as npimport tensorflow.keras as kerasimport pandas as pdimport matplotlib.pyplot as pltfrom sklearn.preprocessing import MinMaxScalerdef RNN(x_train, y_train): regressor = keras.Sequential() # add the first R
2022-01-13 23:22:23
664
原创 pytorch入门2
使用多层感知机完成MNIST手写字体识别# -*-coding = utf-8import torchimport torch.nn.functional as Ffrom torch.utils.data import DataLoaderfrom torchvision import datasetsfrom torchvision import transformsclass Net(torch.nn.Module): def __init__(self):
2022-01-12 21:31:04
584
2
原创 pytorch入门
import torchdef forward(x): return x*wdef loss(x, y): y_hat = forward(x) return (y-y_hat)**2if __name__ == "__main__": x_data = [1., 2., 3.] y_data = [2., 4., 6.] w = torch.tensor([1.0]) w.requires_grad = True for
2022-01-11 18:00:37
386
原创 使用keras_tuner进行超参数调优
import tensorflow as tfimport matplotlib.pyplot as pltfrom tensorflow import kerasfrom tensorflow.keras.preprocessing.image import ImageDataGeneratortrain_datagen = ImageDataGenerator(rescale=1.0/255)val_datagen = ImageDataGenerator(rescale=1.0/255)t
2022-01-09 19:00:08
1308
原创 LeetCode第69场双周赛第三、四题答案
第三题class Solution {public: int longestPalindrome(vector<string>& words) { unordered_map<string, int>func1,func2; int n = words.size(); string s("12"); for (int i = 0; i < n; i++) {
2022-01-09 00:26:25
408
原创 TensorFlowCNN中间层可视化
import tensorflow as tffrom tensorflow import kerasimport matplotlib.pyplot as pltfashion_mnist = keras.datasets.fashion_mnist(x_train,y_train),(x_test,y_test) = fashion_mnist.load_data()model2 = keras.Sequential()model2.add(keras.layers.Conv2D(64,
2022-01-08 12:13:53
605
原创 计算几何-寻找凸包
文章目录问题定义主要方法Graham扫描法Javis步进法问题定义一个点集Σ\SigmaΣ的凸包是一个面积最小的凸多边形PPP,满足点集中每个节点都在P的边界或者P的内部。显然,凸包中每个顶点都是点集中的点。主要方法增量法(Incremental method),对点集进行从左到右排序,在第iii步中,根据前iii个节点形成是的凸包对第i个节点进行考察,是否加入p中。时间复杂度为O(nlgn)O(n\lg n )O(nlgn)分治法,将点集分为最左边n2\frac{n}{2}2n个节点和最
2022-01-03 23:28:12
361
原创 线段的叉乘
文章目录叉乘的定义和几何含义叉乘的几个相关操作案例参考思路叉乘的定义和几何含义定义 :定义点a(x1,y1),b(x2,y2)a(x_1,y_1),b(x_2,y_2)a(x1,y1),b(x2,y2)的叉乘为∣x1y1x2y2∣=x1y2−x2y1\left |\begin{array}{cc}x_1 &y_1\\x_2 &y_2\\\end{array}\right| = x_1y_2 - x_2y_1∣∣∣∣x1x2y1y2∣∣∣∣=x1y2
2022-01-03 17:46:44
1360
原创 OpenGL中着色器设置
//三角形#define GLEW_STATIC#include<GL/glew.h>#include<GLFW/glfw3.h>#include<iostream>float vertices[] = { -0.5f, -0.5f, 0.0f, 0.5f, -0.5f, 0.0f, 0.1f, 0.2f, 0.0f, 0.3f, 0.1f, 0.0f,};unsigned int indices[] ={ 0,1,2, 1,2,..
2021-05-01 17:15:14
236
原创 质数线性筛
class Solution {public: static const int N = 1e7; int primes[N], cnt; int st[N]; void getPrimes(int n) { for (int i = 2; i < n; i ++) { if (!st[i]) { primes[cnt ++] = i; }
2021-04-16 21:19:53
275
原创 快排
void quickSort(int *array, int left, int right){ if(left < right) { int pivot = array[left]; int low = left, high = right; while(low < high) { while(array[high] >= pivot && low < high) high--; array[low] = array[hig
2021-04-12 20:30:35
260
哈工大高级算法、组合优化作业、实验、PPT和书籍
2024-07-18
Learning Efficient Convolutional Networks via Network Slimming
2022-01-20
Python使用docx新建的文件全是兼容模式,打开的字符格式全是乱码怎么办呀?
2021-04-06
TA创建的收藏夹 TA关注的收藏夹
TA关注的人