自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

大家好~我是SP_FA~

这里,锦依卫一只

  • 博客(155)
  • 收藏
  • 关注

原创 机器学习:目录

在学习人工智能时的随手记

2021-06-10 23:14:15 391

原创 Python 学习:目录

Python 是个好东西,谁学谁知道 ~基本对象类型持续更新中。。。

2021-04-10 10:33:45 610

原创 算法整理 & 复习

一、排序二、高精度运算三、树四、数据结构五、图论六、动态规划七、数论暂时先这些,以后一点一点补充

2020-09-29 19:32:48 1805 3

原创 Sublime Text 3 使用笔记:目录

(一)安装 & 配置编译环境(二)编辑快捷键(三)安装 Package control(四)汉化(五)自定义代码提示

2020-09-22 19:32:16 577 2

原创 《Dreamweaver CS6 完全自学教程》笔记

Dreamweaver CS6 完全自学教程先附上资源链接:链接: https://pan.baidu.com/s/1UX6YWUEGxvL6qq8PoVULhw提取码: 790m主要参考这本书进行学习,但不限于此书,如果用到其他资料会进行注明。文章目录Dreamweaver CS6 完全自学教程第一章:网页制作基础知识1.1 Web概述1.1.1 Web服务的工作原理1.1.2 Web...

2020-09-17 08:22:41 5424

原创 [读论文] Compositional 3D-aware Video Generation with LLM Director

近年来,通过强大的生成模型和大规模互联网数据,文本到视频生成领域取得了显著进展。然而,在生成视频中精确控制单个概念(如特定角色的动作和外观、视角的移动)方面,仍存在巨大挑战。为此,我们提出了一种新的范式,先分别生成每个概念的 3D 表示,然后利用大语言模型(LLM)和 2D 扩散模型的先验知识将它们组合起来。

2024-12-06 18:17:34 1133

原创 [读论文] Animate-X: Universal Character Image Animation with Enhanced Motion Representation

角色图像动画是一种根据参考图像和目标姿势序列生成高质量视频的技术,近年来取得了显著的进展。然而,大多数现有方法仅适用于人类形象,对游戏和娱乐等行业中常见的拟人化角色的泛化能力通常较差。我们的深入分析表明,这一局限性主要归因于其对动作建模的不足,这无法有效理解驱动视频的运动模式,而是将姿势序列僵硬地强加到目标角色上。为此,本文提出了一种基于 LDM 的通用动画框架 Animate-X,适用于各种角色类型(统称为X),包括拟人化角色。为了增强动作表示,我们引入了。

2024-12-06 18:15:08 1059

原创 [读论文] Text-Driven Image Editing via Learnable Regions

语言已经成为图像编辑的一种自然界面。在本文中,我们提出了一种基于文本提示的区域图像编辑方法,无需用户提供遮罩或草图。具体而言,我们的方法利用了现有的预训练文本到图像模型,并引入了一个边界框生成器,用于识别与文本提示对齐的编辑区域。我们证明了这种简单的方法可以实现与当前图像生成模型兼容的灵活编辑,并能够处理包含多对象、复杂句子或长段落的复杂提示。我们进行了广泛的用户研究,将我们的方法与最先进的方法进行比较。实验表明,我们的方法在根据语言描述操作图像时,能够以高保真度和真实性表现出竞争性性能。

2024-12-05 19:51:07 1221

原创 [读论文] SV3D: Novel Mult-view Synthesis and 3D Generation from a Single Image using Latent Video Diffu

提出了 Stable Video 3D(SV3D),这是一种潜在视频扩散模型,用于高分辨率的图像到多视角生成,实现围绕 3D 对象的轨道视频生成。最近的 3D 生成研究提出了将 2D 生成模型适应为新视角合成(NVS)和 3D 优化的技术。然而,这些方法由于视角数量有限或 NVS 不一致,存在一定的缺点,从而影响了 3D 对象生成的效果。

2024-12-05 19:48:45 955

原创 [读论文] Referring Image Editing: Object-level Image Editing via Referring Expressions

随着扩散模型(Diffusion Model)的最新进展,图像编辑领域取得了显著的突破。然而,大多数现有方法主要集中于全局或主体级别的修改,在仅依赖文本提示的情况下,对场景中特定对象进行编辑时常常面临限制,尤其当场景中存在多个共存对象时。为应对这一挑战,我们引入了一种对象级生成任务,称为,该任务使得能够使用文本提示识别和编辑图像中的特定源对象。为有效解决这一任务,我们提出了一个定制的框架,称为。该框架旨在将输入提示解耦为多个嵌入表示,并采用一种混合监督的多阶段训练策略。

2024-12-03 22:35:54 1078

原创 [读论文] MaskINT: Video Editing via Interpolative Non-autoregressive Masked Transformers

生成式 AI 的最新进展显著增强了图像和视频编辑,尤其是在文本提示控制的上下文中。最先进的方法主要依靠扩散模型来完成这些任务。然而,基于扩散的方法的计算需求很大,通常需要大规模的配对数据集进行训练,因此对实际应用中的部署提出了挑战。为了解决这些问题,本文将基于文本的视频编辑任务分为两个阶段。首先,我们利用预先训练的文本到图像扩散模型以零镜头的方式同时编辑几个关键帧。

2024-12-03 22:33:27 982

原创 [读论文] Inversion-Free Image Editing with Natural Language

尽管基于反演的编辑技术取得了最新进展,但在扩散模型中实现文本引导的图像操作仍然具有挑战性。主要瓶颈包括:反演过程耗时难以在一致性和准确性之间取得平衡一致性模型中高效的一致性采样方法缺乏兼容性为了解决上述问题,我们首先探讨是否可以消除编辑过程中的反演步骤。我们展示了在已知初始样本的情况下,一种特殊的方差调度可以将去噪步骤简化为与多步一致性采样相同的形式。我们称之为 去噪扩散一致模型(DDCM),并指出它暗示了一种虚拟反演策略,而无需在采样中显式反演。

2024-12-02 20:02:04 1077

原创 [读论文] Fresco: Spatial-Temporal Correspondence for Zero-Shot Video Translation

这篇文章探讨了文本到图像扩散模型的显著效果,并激发了在视频领域应用的广泛探索。零样本方法旨在将图像扩散模型扩展到视频,而无需进行模型训练。最近的方法主要集中在将帧间对应关系融入注意力机制。然而,确定在哪些地方关注有效特征的软约束有时不够充分,可能导致时间上的不一致性。本文提出了FRESCO,除了帧间对应关系外,还引入了帧内对应关系,以建立更强的时空约束。这一增强确保了在帧间转换过程中语义相似的内容保持一致。

2024-12-02 19:55:36 1577

原创 [读论文] Edit One for All: Interactive Batch Image Editing

近年来,图像编辑取得了显着进步。随着人工控制的增加,现在可以以多种方式编辑图像;从在文本中指定要更改的内容,到以基于点的交互式方式直接向上拖动图像的内容。但是,大部分重点仍然是一次编辑单个图像,是否以及如何同时编辑大批量图像仍未得到充分研究。为了最大限度地减少编辑过程中的人工监督,本文提出了一种以 StyleGAN 为媒介的交互式批量图像编辑的新方法。

2024-12-01 09:05:18 959

原创 [读论文] ACE: All-Round Creator and Editor Following Instructions via Diffusion Transformer

扩散模型已成为一种强大的生成技术,并被发现可应用于多种场景。目前大多数基础的扩散模型主要设计用于文本引导的视觉生成,且不支持多模态条件,这对于许多视觉编辑任务是必需的。这一限制使得这些基础扩散模型无法像 GPT-4 在自然语言处理领域那样,成为视觉生成领域的统一模型。在本研究中,我们提出了 ACE,一种全能创作和编辑模型,其在广泛的视觉生成任务中达到了与那些专家模型相当的性能。

2024-12-01 08:50:49 1187

原创 [读论文] Legalbench: A Collaboratively Built Benchmark For Measuring Legal Reasoning In LLMs

LLMs 的兴起及其在法律界的应用引发了一个问题:LLMs 能够执行哪种类型的法律推理?为进一步研究这一问题,我们提出了 Legalbench:一个由协作构建的法律推理基准,涵盖了六种不同类型的法律推理,共162个任务。Legalbench 是通过跨学科过程构建的,在这个过程中,我们收集了由法律专业人士设计和精心制作的任务。由于这些主题专家在构建中起到了主导作用,任务要么测量实际有用的法律推理能力,要么测量律师感兴趣的推理技巧。

2024-08-23 02:31:10 1263

原创 OpenCompass 使用 LawBench 评测本地模型教程

OpenCompass 是一个用于评测语言大模型和多模态大模型的算法库,中文文档连接:https://opencompass.readthedocs.io/zh-cn/latest/index.html。

2024-08-08 01:16:17 1470 1

原创 [读论文] DISC-LawLLM: Fine-tuning Large Language Models for Intelligent Legal Services

我们提出了DISC-LawLLM,这是一个利用大型语言模型的智能系统,以提供广泛的法律服务。我们采用法律三段论提示策略,构建中国司法领域的监督微调数据集,并建立具有法律推理能力的 Law LLM。我们通过检索模块增强了 LLM,以增强模型获取和利用外部法律知识的能力。提出了一个综合性法律基准,即 DISC-Law-Eval,用于评估客观和主观因素的智能法律系统。DISC-Law-Eval 的定量和定性结果表明,我们的系统在为不同法律场景中的各种用户提供服务方面是有效的。

2024-07-26 02:31:50 1240

原创 [读论文] LawBench: Benchmarking Legal Knowledge of Large Language Models

LLM 在各个方面都表现出了强大的能力。然而,当将它们应用于高度专业化、安全关键的法律领域时,尚不清楚他们拥有多少法律知识以及他们是否能够可靠地执行与法律相关的任务。为了弥补这一差距,文章提出了一个综合性评估基准 LawBench。LawBench 经过精心设计,从三个认知层面对 LLM 的法律能力进行精确评估:(1)法律知识记忆:LLM 是否能够记住所需的法律概念、文章和事实;(2)法律知识理解:LLM 是否理解法律文本中的实体、事件和关系;

2024-07-26 01:53:06 1474

原创 【傻瓜式教程】DreamPlace 的下载安装使用和踩过的坑

DreamPlace 是一款芯片放置工具,用于宏单元(macro)和标准单元(Standard Cell)的放置以及布线,并计算 HPWL、Overlap 等用于衡量芯片性能的参数。

2023-12-08 21:27:18 3625 12

原创 [读论文] On Joint Learning for Solving Placement and Routing in Chip Design

由于 GPU 在加速计算方面的优势和对人类专家的依赖较少,机器学习已成为解决布局和布线问题的新兴工具,这是现代芯片设计流程中的两个关键步骤。它仍处于早期阶段,存在一些基本问题:可扩展性、奖励设计和端到端学习范式等。为了实现端到端放置学习,我们首先提出了一种由 DeepPlace 命名的联合学习方法,通过将强化学习与基于梯度的优化方案相结合,用于宏和标准单元的放置。为了进一步将布局与随后的布线任务连接起来,我们还开发了一种通过强化学习来同时完成宏布局和布线的联合学习方法,称为 DeepPR。

2023-10-29 20:28:12 598

原创 [读论文] Towards Machine Learning for Placement and Routing in Chip Design: a Methodological Overview

在现代芯片设计流程中,放置和布线是两个不可或缺且具有挑战性的 NP-hard 问题。与使用启发式算法或专家精心设计的算法的传统求解器相比,机器学习凭借其数据驱动的性质显示出了广阔的前景,它可以减少对知识和先验的依赖,并且通过其先进的计算范式具有更大的可扩展性 (例如 GPU 加速的深度网络)。本调查首先介绍了基本的布局(Placement)和布线(Routing),并简要介绍了经典的无学习解算器。

2023-10-27 00:36:56 839

原创 无偏方差公式推导

在很多情况下我们无法获取所有的样本,更多时候其实只能获取总样本中的一部分样本,而通过这部分样本算出的和使用总样本计算出的之间肯定存在误差,也就是说这个样本方差是有偏的,因此,我们希望对样本方差进行修正,使样本方差是总体方差的一个无偏估计。

2023-09-06 11:18:05 2147

原创 DBSCAN 算法详解 + 代码实现 + 参数的选择

基于密度的噪声应用空间聚类(DBSCAN)是一种无监督聚类算法,它可以替代KMeans和层次聚类等流行的聚类算法。

2023-07-20 13:22:28 6887 5

原创 点云 K 临近查找算法:kd 树

kd 树是一个二叉树,用于高效的查找某个点的 k 临近点,它的每一个节点记载了 特征坐标,切分轴,指向左右子树的指针。

2023-07-09 12:38:27 471

原创 卡尔曼滤波器详解 + 公式推导 + 手动实现 + cv2 实现

卡尔曼滤波(Kalman filter)是一种高效率的递归滤波器(自回归滤波器),它能够从一系列的不完全及包含噪声的测量中,估计动态系统的状态。卡尔曼滤波会根据各测量量在不同时间下的值,考虑各时间下的联合分布,再产生对未知变数的估计,因此会比只以单一测量量为基础的估计方式要准。卡尔曼滤波适用于,即该系统必须是线性的,而且噪声服从正态分布。更详细一些,噪声通常被建模为一个均值为 0、方差为常数的正态分布,也就是高斯分布。该正态分布的横坐标是随机变量的取值,纵坐标是对应取值的概率密度。

2023-06-22 16:58:10 3641

原创 基于 pytorch 的手写 transformer + tokenizer

纯手工分模块实现一个 transformer 模型

2023-03-17 23:00:50 2739 2

原创 Linux 文件、目录与磁盘格式

rootsu root用户身份、用户组记录文件:默认情况下,系统账号以及root的相关信息,都记录在文件夹内,个人的密码记录在文件夹内,所有的组名记录在/etc/group文件夹内。

2023-02-25 17:16:02 1139

原创 一般梯度、随机梯度、相对梯度和自然梯度

一般梯度、随机梯度、相对梯度、自然梯度之间的联系

2023-01-14 18:28:36 753

原创 熵、交叉熵、KL散度

对熵、交叉熵、KL散度的总结整理

2023-01-14 02:27:17 600

原创 CAN201-Computer Network(2)

XJTLU CAN-205 课程笔记

2023-01-09 17:51:05 2783

原创 CPT205-Computer Graphics(2)

XJTLU CPT-205 计算机图形学 OpenGL 课程笔记

2023-01-09 03:37:24 2399

原创 CPT203-Software Engineering(3)

CPT203学习笔记

2023-01-04 02:23:43 1058

原创 CPT203-Software Engineering(2)

CPT203 课程笔记

2023-01-03 17:29:15 2423

原创 INT201-Decision, Computation and Language(2)

INT201课程笔记

2023-01-03 01:23:50 900

原创 机器学习 08:激活函数大全

虽称为激活函数大全,但也不敢太过自满,如有遗漏与错误,还请指正。

2023-01-01 16:54:30 1155 1

原创 语音识别准确率的计算:CER

语音识别准确率 CER 的计算、公式推导与代码实现

2022-11-28 11:55:44 5612

原创 关于在学习 opengl 时遇到的 bug:在 glBegin 和 glEnd 中间使用 glLineWidth 的问题

关于在 glBegin 和 glEnd 中间使用 glLineWidth 时遇到的问题

2022-11-06 17:47:50 718

原创 INT201-Decision, Computation and Language(1)

自动机原理课程笔记

2022-10-13 11:57:18 787

原创 图像旋转算法及 pytorch 源码解读

正向映射法、逆向映射法以及基于 Bresenham 的快速旋转法

2022-09-27 10:56:04 1275

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除