东风中的蒟蒻-优快云博客

原创 Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model(2024,8)

本质是将LLM的transformer和图像中的diffusion结合了起来,使用同一个transformer来同时处理文本和图像信息.之前的DiT架构都是使用一个预训练的TextEncoder来提取文本信息,并通过Concat、AdaLN、架构改进：论文还探讨了Transfusion模型的不同变体，包括使用不同大小的图像补丁、不同的编码/解码架构（线性层与U-Net块），以及限制图像噪声的程度，以提高特定任务的性能。这允许图像内的每个补丁能够相互注意，同时只能注意序列中先前出现的文本或图像补丁。

2024-09-04 23:03:11 1425

原创 Towards Robust Blind Face Restoration with Codebook Lookup Transformer(NeurIPS 2022) | Codeformer

这篇论文试图解决的是盲目面部恢复（blind face restoration）问题，这是一个高度不确定的任务，通常需要辅助指导来改善从低质量（LQ）输入到高质量（HQ）输出的映射，或者补充输入中丢失的高质量细节。上图给出了为什么使用VQVQE,因为VAE输出的Embedding是连续的,包含的潜空间太大,而VQVAE可以看作聚类,从LQ->HQ的映射,为了保证图像质量,我们希望这个映射空间较小,从而更可能生成高质量的图像.,更有利于模型学习.CodeFormer也可以用于图像编辑之类的.

2024-09-04 22:57:58 665

原创 RestoreFormer++: Towards Real-World Blind Face Restoration from Undegraded Key-Value Pairs(IEEE,2023

VQVAE部分.VQVAE在Encoder和Decoder中间的潜空间进行的,并且VQVAE的输出作为Decoder的Q来进行Cross Attention,作者认为之间构建的Facial Component Dictionary并没有包含足够的语义信息,通过VQVAE进行编码的ROHQD能够包含更多的细节信息.动机:认为之前的模型都只关注了图像的纹理信息,而忽视了人脸的细节信息,本文采用多尺度、交叉注意力的方式引入模型的语义信息.TODO:之后在做超分的任务时可以关注一下这个EDM构造数据集的做法.

2024-09-04 22:56:17 401

原创图像评估指标

FID、PSNR、SSIM、LPIPS等图像评估指标

2024-08-19 21:39:38 575

原创 ControlNeXt: Powerful and Efficient Control for Image and Video Generation(2024,8)

ControlNeXt Paper Reading

2024-08-19 21:23:40 758

原创 CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer

清华智普最新T2V模型,CogVideoX,能生成480x720的6s fps=8视频,经过测试位于第二梯队,弱于快手可灵,Luma等模型

2024-08-15 23:40:00 1090

原创 IP、ID一致性论文阅读

IP一致性：指的是给定输入的图像，要求保持图像中的ID不变，IP可能是Identity Property，要求能够识别出是同一个身份。目前通过IP的一致性技术，可以用于短视频短剧上，是一个新兴的市场技术。

2024-07-29 10:48:23 1081 1

原创 Scaling Vision Transformers to 22 Billion Parameters

Vision Transformer（ViT）的大规模扩展：尽管Transformer架构在自然语言处理（NLP）领域取得了巨大成功，但在计算机视觉（CV）领域，尤其是图像和视频建模方面，尚未实现与语言模型相当的规模扩展。论文提出了ViT-22B，这是一个具有220亿参数的Vision Transformer模型，是目前最大的密集ViT模型。训练稳定性和效率：在扩展ViT模型到22亿参数的过程中，作者遇到了训练不稳定性的问题。

2024-07-21 20:34:31 954

原创 ChatGLM: A Family of Large Language Models from GLM-130B to GLM-4 All Tools(2024.7.16)

ChatGLM-4 最新论文阅读

2024-07-18 18:13:37 1125

原创 PIXART-α: FAST TRAINING OF DIFFUSION TRANSFORMER FOR PHOTOREALISTIC TEXT-TO-IMAGE

PIXART-α: FAST TRAINING OF DIFFUSION TRANSFORMER FOR PHOTOREALISTIC TEXT-TO-IMAGE 简介

2024-07-18 18:09:02 332

原创经典的卷积神经网络的pytorch实现（LeNet、AlexNet、VGGNet、NiN、GoogleNet、ResNet、DenseNet)

经典的卷积神经网络的pytorch实现

2022-06-14 23:17:06 763

原创哈工大计算机系统一纸开卷CSAPP

哈工大计算机系统CSAPP 一纸开卷

2022-06-06 00:12:01 1082

原创计算机系统-大作业

本文以hello.c文件为案例，详细地分析了程序在Linux、Window操作系统下的运行过程，分别从硬件、软件、用户、内核等各个方面阐述了程序的运行过程，并在适当的过程中给出相应的程序截图。本文主要按照《CS：APP》的章节顺序进行展开，从低层次到高层次逐渐理解操作系统的各个机制和工作原理。关键词：操作系统、Linux、程序目录第1章概述 - 4 -1.1 Hello简介 - 4 -1.2 环境与工具 - 4 -1.3 中间结果 - ...

2022-05-20 11:18:17 402

原创 Linux c语言实现简单的CLI(command line interpreter)

这是标准答案#include "wish.h"#include <ctype.h> // isspace#include <regex.h> // regcomp, regexec, regfree#include <stdio.h> // fopen, fclose, fileno, getline, feof#include <stdlib.h> // exit#include <sys/types.h>#include &

2022-04-02 12:54:59 3381 4

原创 TensorFlow中常见的CallBack

文章目录TensorFlow中常见的CallBackTensorboardCheckpointEarlystopingCSVLoggerLearningRateScheduler定义CallBack类TensorFlow中常见的CallBackTensorboardmodel = build_model(dense_units=256)model.compile( optimizer='sgd', loss='sparse_categorical_crossentropy',

2022-03-07 21:07:25 2137

原创使用Tensor Flow自定义Hidden Layer

文章目录Lambda Layer定义类Lambda Layer使用keras.layers提供的Lambda layer APImnist = tf.keras.datasets.mnist(x_train, y_train),(x_test, y_test) = mnist.load_data()x_train, x_test = x_train / 255.0, x_test / 255.0如下：model = tf.keras.models.Sequential([ tf.ke

2022-03-02 20:19:27 336

原创使用tensorflow自定义loss函数

文章目录定义python函数wrapper类定义python函数 def my_huber_loss(y_true, y_pred): error = y_true - y_pred is_small_error = tf.abs(error) <= threshold small_error_loss = tf.square(error) / 2 big_error_loss = threshold * (tf.abs(err

2022-03-02 18:22:38 2566

原创人脸识别基础（FaceNet）

文章目录Face verification VS Face recoginitionEncoderTriplet Loss主要思路参考FaceNet论文:FaceNet: A Unified Embedding for Face Recognition and Clustering以及吴恩达视频Face verification VS Face recoginition对于人脸验证，我们完全可以将之看作为一个二分类问题，但人脸识别发展到现在，我们依然用人脸识别的方法来解决。Encoder我们

2022-02-14 19:08:13 2395

原创目标检测础知识（Object Detection）

文章目录Object LocalizationSliding Window Detection（Convolutional implementation）YOLO（you only look once）Iou (intersection over union)Anchor BoxesNon-Max SupressionObject Localization定位一个物体，要求我们输入一个图片，输出一个物体对应的方位。XConvNet→[Pcbxbybhbw...one_hot]X\quad \und

2022-02-10 22:34:46 1778

原创 MobileNet_v2 with transfer learning（修改Mobile_v2 模型）

文章目录载入数据数据增强（Data Augmentation）载入模型，并使用迁移学习修改模型载入数据从文件夹中载入图片BATCH_SIZE = 32IMG_SIZE = (160, 160)directory = "dataset/"train_dataset = image_dataset_from_directory(directory, shuffle=True,

2022-02-08 13:35:30 1808

原创使用TensorFlow Function构建ResNet

文章目录原理Identity BlockConvolutional BlockResNet(50 layers)原理Residual Network的基本原理就是跳跃传播，和传统的CNN网络（作为Residual Network的mainly road），Residaul 添加了新的传播通道（shortcut），具体可以参看下面的图片：中间加入BN层提高速度（As you want）shortcut具体跳跃几个层由自己决定，一般总的层数越多，跳跃的也越多。shortcut份两种，一种是X

2022-02-08 13:16:56 687

原创使用Sequential,Function API 构建简单CNN

文章目录SequentialFunction API的简单使用SequentialSequential支持straightforward式的叠加中间层，他通过简单将每一层放置在当前最顶层来对中间层进行叠加，具体的内容可以参照官方文档# GRADED FUNCTION: happyModeldef happyModel(): """ Implements the forward propagation for the binary classification model:

2022-02-08 11:38:22 981

原创使用numpy构建CNN(前向和反向传播)

构建CNN中padding（填充）（只会对长和宽进行填充）# GRADED FUNCTION: zero_paddef zero_pad(X, pad): """ Pad with zeros all images of the dataset X. The padding is applied to the height and width of an image, as illustrated in Figure 1. Argument: X.

2022-02-06 14:35:42 464

原创 TensorFlow基础介绍（底层构造神经网络）

使用tf.Variable,tf.constant指定不同类别的占位符# GRADED FUNCTION: linear_functiondef linear_function(): """ Implements a linear function: Initializes X to be a random tensor of shape (3,1) Initializes W to be a random tensor of sh.

2022-02-04 09:27:20 1135 1

原创优化方法（optimization method）Momentum、RMSprop、Adam、LearningRate Decay

文章目录指数加权平均值Exponentially weighted averages带动量的梯度下降方法（Gradient Descent with Momentum）RMSprop(Root mean sqare propagate)Adam学习率下降（Learning Rate Decay）几种优化方法的比较源数据传统梯度下降带动量的梯度下降AdamGD+ LearningRate DecayMomentum + LearningRate DecayAdam + LearningRate Decay指

2022-02-03 22:00:02 1459

原创梯度检验（gradients checking）

文章目录3 - How does Gradient Checking work?Backpropagation computes the gradients ∂J∂θ\frac{\partial J}{\partial \theta}∂θ∂J, where θ\thetaθ denotes the parameters of the model. JJJ is computed using forward propagation and your loss function.Because

2022-01-28 15:06:11 1410

原创正则化方法（Regularization）

文章目录add penaltyinverted dropoutadd penalty即在最后的cost_function中加入penalty，常用的有L1，L2，leakyL1等惩罚。L1:Loss(X∣W,b)=loss(X∣W,b)+λ∑l=1L∣∣Wij∣∣L1:\\ Loss(X|W,b) = loss(X|W,b) + \lambda\sum_{l=1}^{L}||{W_{ij}}||L1:Loss(X∣W,b)=loss(X∣W,b)+λl=1∑L∣∣Wij∣∣L2:Loss

2022-01-28 14:08:00 197

原创 Different initialization in the NN

文章目录zeros initializationrandom initializationHe initialization以下面数据为例zeros initialization将所有的权重矩阵赋值为0# GRADED FUNCTION: initialize_parameters_zeros def initialize_parameters_zeros(layers_dims): """ Arguments: layer_dims -- python array

2022-01-28 13:14:46 105

原创 CNN模型压缩——使用网络稀疏化方法（Learning Effcient Convolutional Network through Network Sliming）

文章目录IntroductionRelated Work网络稀疏化（Network Slimming）why choose chennel-level sparsifyhow to implement在模型中加入BN（Batch Normalization）层本文中的方法来自于论文《Learning Effcient Convolutional Network through Network Sliming》论文：Learning Effcient Convolutional Network throu

2022-01-20 21:21:51 3718

TA关注的人

哈工大高级算法、组合优化作业、实验、PPT和书籍

笔记：计算机网络-应用层

《DeepLearning》week2编程作业

Learning Efficient Convolutional Networks via Network Slimming

Python使用docx新建的文件全是兼容模式，打开的字符格式全是乱码怎么办呀？