自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(42)
  • 收藏
  • 关注

原创 Leetcode面试经典150_Q238除自身以外数组的乘积

之中任意元素的全部前缀元素和后缀的乘积都在。之外其余各元素的乘积。时间复杂度内完成此题。

2024-04-09 11:09:57 230

原创 Leetcode面试经典150_Q274H指数

给定数组表示研究者总共有 5 篇论文,每篇论文相应的被引用了 3 0 6 1 5 次。由于研究者有 3 篇论文每篇。篇论文被引用的次数。计算并返回该研究者的 h。被引用了 3 次,其余两篇论文每篇被引用。代表“高引用次数” ,一名科研人员的。篇论文被引用次数大于等于。是指他(她)至少发表了。

2024-04-09 10:54:41 259

原创 Leetcode面试经典150_Q134加油站

如果x到达不了y+1,那么x-y之间的点也不可能到达y+1,因为中间任何一点的油都是拥有前面的余量的,所以下次遍历直接从y+1开始​​​​​​​。,如果你可以按顺序绕环路行驶一周,则返回出发时加油站的编号,否则返回。你从其中的一个加油站出发,开始时油箱为空。你有一辆油箱容量无限的的汽车,从第。个加油站需要消耗汽油。

2024-04-09 10:45:57 289

原创 Leetcode面试经典150_Q45跳跃游戏II

跳到最后一个位置的最小跳跃数是 2,路线:0-1--1。向前跳转的最大长度。生成的测试用例可以到达。处,你可以跳转到任意。

2024-04-09 10:38:59 274

原创 Leetcode面试经典150_Q28找出字符串中第一个匹配项的下标

字符串的第一个匹配项的下标(下标从 0 开始)。第一个匹配项的下标是 0 ,所以返回 0。"sad" 在下标 0 和 6 处匹配。

2024-04-09 10:28:20 241

原创 Leetcode面试经典150_Q55跳跃游戏

数组中的每个元素代表你在该位置可以跳跃的最大长度。判断你是否能够到达最后一个下标,如果可以,返回。给你一个非负整数数组。

2024-04-09 09:46:23 191

原创 Leetcode面试经典150_Q58最后一个单词的长度

由若干单词组成,单词前后用一些空格字符隔开。是指仅由字母组成、不包含任何空格字符的最大子字符串。最后一个单词是“World”,长度为5。

2024-04-09 00:30:19 146

原创 Leetcode面试经典150_Q14最长公共前缀

最长公共前缀的长度不会超过字符串数组中的最短字符串的长度。可以在 [0,minLength] 的范围内通过二分查找得到最长公共前缀的长度。每次取查找范围的中间值 mid,判断每个字符串的长度为 mid 的前缀是否相同,如果相同则最长公共前缀的长度一定大于或等于 mid,如果不相同则最长公共前缀的长度一定小于 mid,通过上述方式将查找范围缩小一半,直到得到最长公共前缀的长度。编写一个函数来查找字符串数组中的最长公共前缀。对两个子问题分别求解,然后对两个子问题的解计算最长公共前缀,即为原问题的解。

2024-04-09 00:24:55 176

原创 Leetcode面试经典150_Q12整数转罗马数字

遍历每个数值-符号对,若当前数值 value 不超过 num,则从 num 中不断减去 value,直至 num 小于 value,然后遍历下一个数值-符号对。根据罗马数字的唯一表示法,为了表示一个给定的整数 num,我们寻找不超过 num 的最大符号值,将 num 减去该符号值,然后继续寻找不超过 num 的最大符号值,将该符号拼接在上一个找到的符号之后,循环直至 num 为 0。数字 1 在数字 5 的左边,所表示的数等于大数 5 减小数 1 得到的数值 4。,即为两个并列的 1。

2024-04-09 00:15:49 255

原创 Leetcode面试经典150_Q13罗马数字转整数

若存在小的数字在大的数字的左边的情况,根据规则需要减去小的数字。对于这种情况,我们也可以将每个字符视作一个单独的值,若一个数字右侧的数字比它大,则将该数字的符号取反。通常情况下,罗马数字中小的数字在大的数字的右边。若输入的字符串满足该情况,那么可以将每个字符视作一个单独的值,累加每个字符对应的数值即可。数字 1 在数字 5 的左边,所表示的数等于大数 5 减小数 1 得到的数值 4。通常情况下,罗马数字中小的数字在大的数字的右边。但也存在特例,例如 4 不写做。,即为两个并列的 1。

2024-04-09 00:07:09 367

原创 Leetcode面试经典150_Q122买卖股票的最佳时机II

再来考虑 dp[i][1],按照同样的方式考虑转移状态,那么可能的转移状态为前一天已经持有一支股票,即 dp[i−1][1],或者前一天结束时还没有股票,即 dp[i−1][0],这时候要将其买入,并减少 prices[i] 的收益。如果这一天交易完后手里没有股票,那么可能的转移状态为前一天已经没有股票,即 dp[i−1][0],或者前一天结束的时候手里持有一支股票,即 dp[i−1][1],这时候要将其卖出,并获得 prices[i] 的收益。这若干个区间长度为 1 的区间的价值和,即。

2024-04-08 15:13:09 661

原创 Leetcode面试经典150_Q121买卖股票的最佳时机

返回你可以从这笔交易中获取的最大利润。如果你不能获取任何利润,返回。设计一个算法来计算你所能获取的最大利润。买入这只股票,并选择在。

2024-04-08 14:50:25 143

原创 Leetcode面试经典150_Q189轮转数组

根据规则,位置 0 的元素会放至 (0+k) mod n 的位置,令 x=(0+k) mod n,此时交换 temp 和 nums[x],完成位置 x 的更新。然后考察位置 x,并交换 temp 和 nums[(x+k) mod n],从而完成下一个位置的更新。不断进行上述过程,直至回到初始位置 0。,将数组中的元素向右轮转。

2024-04-08 14:42:27 288

原创 Leetcode面试经典150_Q169多数元素

遍历数组 nums 中的所有元素,对于每个元素 x,在判断 x 之前,如果 count 的值为 0,我们先将 x 的值赋予 candidate,随后我们判断 x;你可以假设数组是非空的,并且给定的数组总是存在多数元素。,返回其中的多数元素。多数元素是指在数组中出现次数。

2024-04-08 14:29:50 565

原创 Leetcode面试经典150_Q80删除有序数组中的重复项 II

删除重复出现的元素,使得出现次数超过两次的元素。注:要求最多k个重复数字 则前k个可以不必检查。并在使用 O(1) 额外空间的条件下完成。不要使用额外的数组空间,你必须在。,返回删除后数组的新长度。

2024-04-08 14:14:31 663

原创 Leetcode面试经典150_Q26删除有序数组中的重复项

返回删除后数组的新长度。删除重复出现的元素,使每个元素。

2024-04-08 14:05:54 226

原创 Leetcode面试经典150_Q27移除元素

双指针:右指针指向当前将要处理的元素,左指针指向下一个将要赋值的位置。元素的顺序可以改变。你不需要考虑数组中超出新长度后面的元素。不要使用额外的数组空间,你必须仅使用。的元素,并返回移除后数组的新长度。

2024-04-07 17:40:28 274

原创 Leetcode面试经典150_Q88合并两个有序数组

核心思路:数组1尾部有足够空间,因此倒序排序可以在时间&空间复杂度最小的情况下完成任务。最终,合并后数组不应由函数返回,而是存储在数组。个元素表示应合并的元素,后。中,使合并后的数组同样按。

2024-04-07 17:05:05 260

原创 CVPR24_Global and Local Prompts Cooperation via Optimal Transport for Federated Learning

在预训练的视觉-语言模型中进行提示学习已经在各种下游任务中展现出灵活性,利用其固有的轻量级特性,最近的研究尝试将强大的预训练模型集成到联邦学习框架中,以同时降低通信成本并促进对数据缺乏的本地模型训练当前的联邦提示学习方法缺乏专门的设计来系统地解决严重的数据异质性,例如,涉及标签和特征偏移的数据分布。

2024-04-03 01:10:45 1370

原创 ICLR24_ANOMALYCLIP: OBJECT-AGNOSTIC PROMPT LEARNING FOR ZERO-SHOT ANOMALY DETECTION

至关重要,采用“damaged [cls]”来覆盖全面的异常语义,加强对各种缺陷(如划痕和孔洞)的检测。然而,利用这种文本提示模板在生成通用的区分异常的文本嵌入方面存在挑战。CLIP原始预训练专注于与对象语义对齐,而不是图像中的异常/正常性。为了解决这个限制,

2024-04-02 22:30:11 1716

原创 CVPR24_Domain-Agnostic Mutual Prompting for Unsupervised Domain Adaptation

传统的无监督域自适应(UDA)旨在最小化域之间的分布差异,但忽略了从数据中获取丰富语义的潜力,并且难以处理复杂的域偏移。利用大规模预训练的VLMs的知识可以进行更有导向性的适应。现有方法通常是分别学习文本提示以嵌入源域/目标域的语义,并在每个域内进行分类,限制了跨域知识迁移的能力。此外,仅提示语言分支缺乏动态适应两种模态的灵活性。

2024-04-01 22:46:26 2267

原创 ICLR24_CONSISTENCY-GUIDED PROMPT LEARNING FOR VISION-LANGUAGE MODELS

提出了一种名为一致性引导提示学习(Consistency-guided Prompt learning,CoPrompt)的微调方法。CoPrompt在少样本设置下微调后,可以改善大模型在下游任务中的泛化能力。CoPrompt的基本思想是在。

2024-04-01 20:39:02 1185 2

原创 CVPR24_ArGue: Attribute-Guided Prompt Tuning for Vision-Language Models

尽管软提示微调在调整视觉语言模型以适应下游任务方面表现出色,但在处理分布偏移方面存在局限性,通过属性引导提示微调(Attribute-Guided,ArGue)来解决这个问题。

2024-04-01 19:09:48 2507

原创 ICLR24_OUT-OF-DISTRIBUTION DETECTION WITH NEGATIVE PROMPTS

分布外检测(OOD Detection)的研究对于开放世界(open-world)学习非常重要。受大模型(CLIP)启发,部分工作匹配图像特征和提示来实现文本-图像特征之间的相似性。直接的方法是引入负面提示以实现不相似性匹配,通过判断特定特征是否缺失来评估图像是否已知。然而实验结果表明,使用类似""的负面提示()无法捕捉能够区分OOD的特征,其中原因可能是负面特征的多样性。

2024-04-01 17:05:31 2160

原创 Maximum mutual information regularized classification

提出了一种新的模式分类方法,通过正则化分类器学习来最大化分类响应与真实类别标签之间的互信息。我们认为,使用学习的分类器,应该通过尽可能多地了解其分类响应来减少数据样本真实类标签的不确定性。通过分类响应与真实分类标签之间的互信息来衡量减少的不确定性。为此,在学习线性分类器时,我们提出在最小化分类误差和降低分类器复杂度的同时,最大化分类响应与训练样本真实类标签之间的互信息。利用熵估计对互信息进行建模,构造目标函数,并采用梯度下降迭代算法对目标函数进行优化。

2023-07-14 20:10:15 191 1

原创 LEARNING TO DECOMPOSE VISUAL FEATURES WITH LATENT TEXTUAL PROMPTS

像 CLIP 这样的预训练视觉语言模型的最新进展显示出在学习可迁移视觉表征方面的巨大潜力。为了综合优势,提出了特征分解提示 (DeFo)。DeFo 保留了双模型架构,但利用可学习的嵌入作为文本输入,并使用额外的线性层执行分类。因此 DeFo 能够在文本提示的帮助下提取分解的视觉特征,并允许可扩展大小的文本输入。语言引导的视觉预训练在学习可迁移的图像表征方面得到了广泛的关注。通过建立图像和自然语言之间的联系,最近的视觉语言模型能够将有限数量的类的视觉推理转化为 ZS 开放词汇推理。

2023-07-03 17:34:56 308 1

原创 VPPT: VISUAL PRE-TRAINED PROMPT TUNING FRAMEWORK FOR FEW-SHOT IMAGE CLASSIFICATION

大规模的预训练 ViT 取得了显著的性能提升,由于昂贵的计算和存储成本,对下游任务的模型进行完全微调仍然是极具挑战性的。最近,参数高效调优 (PETuning) 技术,例如 Visual Prompt Tuning (VPT),通过在预训练模型中插入轻量级的提示模块 (包括 Prompt Tokens 或 Adapter 层),并使用少量可训练参数对这些提示模块进行调优,同时保持 Backbone 冻结,从而显著降低了计算成本。

2023-07-03 15:31:03 380 1

原创 INSTANCE-AWARE HIERARCHICAL STRUCTURED POLICY FOR PROMPT LEARNING IN VISION-LANGUAGE MODELS

近年来,可学习提示作为一种主要的提示学习范式出现,增强了大规模视觉语言预训练模型在少量图像分类中的性能。然而,增强方法通常是耗时且不灵活的:为了解决这些问题,受人类从粗到精的决策范式的启发,提出了(IAHSP),该策略使用强化学习的方式集成了特定于实例的提示选择和适当的位置选择。这些方法非常耗时,并且需要知识来确定给定实例中最合适的提示,这严重阻碍了它们的应用。

2023-07-03 00:14:15 158 1

原创 Test-Time Prompt Tuning for Zero-Shot Generalization in Vision-Language Models

预先训练的视觉语言模型 (例如 CLIP) 在许多具有适当设计的文本提示的下游任务中显示出有潜力的 ZS 泛化。最近的方法使用来自下游任务的训练数据来学习提示,虽然对特定领域的数据进行训练是有效的,但会降低模型对未知新领域的泛化能力。在这项工作中,提出了测试时提示调优 (TPT),这是一种可以使用单个测试样本动态学习自适应提示的方法。对于图像分类,TPT 通过最小化熵和置信度选择来优化提示,以便模型在每个测试样本的不同增强视图中具有一致的预测。

2023-07-02 23:21:34 255 1

原创 OrdinalCLIP: Learning Rank Prompts for Language-Guided Ordinal Regression

现有的方法通常将每个 Rank 视为一个类别,并使用一组权重来学习这些概念。由于学习到的概念主要来源于训练集,这些方法容易过拟合,通常效果不理想。最近,像 CLIP 这样的大型预训练视觉语言模型在各种视觉任务中表现出了令人印象深刻的表现。本文从 CLIP 丰富的语义潜在空间中学习秩概念。具体来说,将该任务重新表述为具有对比目标的图像 - 语言匹配问题,标签视为文本,并从每个 Rank 的文本编码器中获得语言原型。

2023-07-02 21:42:54 341 1

原创 AdaptFormer: Adapting Vision Transformers for Scalable Visual Recognition

ViTs 在视觉识别领域取得了巨大成功,后续需要使 ViT 适应各种图像和视频识别任务。由于计算量大、存储空间大,自适应具有一定的挑战性。每个模型都需要一个独立而完整的微调过程来适应不同的任务,这限制了它在不同视觉域的可迁移性。为了解决这一挑战,提出了一种有效的 Transformer 自适应方法,即 AdaptFormer,它可以有效地将预训练的 ViTs 适应于许多不同的图像和视频任务,具有比现有技术更吸引人的几个好处。

2023-07-02 14:37:07 648 1

原创 Tip-Adapter: Training-free Adaption of CLIP for Few-shot Classification

CLIP 通过 Zero-shot 知识迁移在下游任务上表现出令人印象深刻的性能。为了进一步提高 CLIP 的自适应能力,现有方法提出对附加可学习模块进行微调,这大大提高了 Few-shot 性能,但引入了额外的训练时间和计算资源。提出了一种无需训练的 CLIP 进行 Few-shot 分类的方法,称为 Tip-Adapter,它不仅继承了 Zero-shot CLIP 无需训练的优点,而且性能与需要训练的方法相当。它们需要更多的计算资源来微调新引入的可学习参数。

2023-07-02 13:16:29 1171 1

原创 Prompt Distribution Learning

视觉语言模型如 CLIP 和 ALIGN,为显式地利用人类语言来有效地解决下游识别任务指明方向。通过对比学习来学习图像和文本的对齐嵌入,鼓励图像的表示及其语言描述相似。在下游任务中,提供与任务相关的内容,即类别描述,可以显著地有利于预训练的 VLM 进行识别,甚至可以在没有训练样本的情况下进行 Zero-Shot 识别。使用手工制作的提示模板构建类别描述。默认提示符是 “一个{类}的照片”,适用于一般的对象识别 (例如 ImageNet 和 STL-10),但处理细粒度的目标识别是困难的。

2023-07-02 11:12:37 646 1

原创 DenseCLIP: Language-Guided Dense Prediction with Context-Aware Prompting

为了说明这一点,首先详细描述 CLIP 图像编码器的结构。以 ResNet 编码器为例,总共有4个阶段,我们将特征映射记为。

2023-07-01 18:17:23 371

原创 Visual Prompt Tuning

当前将预训练模型适用于下游任务的实现方法涉及更新全部Backbone参数,例如提出了作为一种快捷有效的方法来完整微调大规模 Transformer 模型。受益于高效调优 LLMs 的最新进展,VPT在保持模型主干冻结的同时,仅引入少量 (不到模型参数的1%) 可训练参数。通过广泛的实验,在各种下游识别任务中,与其他方法相比,VPT实现了显着的性能提升,甚至在多种模型和数据规模下优于完全微调,同时降低了每个任务的存储成本。代码可从获得。

2023-07-01 16:05:36 214

原创 ADAPT: Vision-Language Navigation with Modality-Aligned Action Prompts

视觉语言导航 (VLN) 是一项具有挑战性的任务,它要求智能体执行动作级模态对齐,即在复杂的视觉环境中按顺序做出指令要求的动作。大多数现有 VLN 智能体直接学习指令路径数据,不能充分探索多模态输入中的行动级对齐知识。本文提出了模态对齐动作提示 (ADAPT),它为 VLN 智能体提供动作提示,使其能够明确学习动作级模态对齐以成功导航。Prompt Learning 范式已经显示出巨大的潜力,通过简单地提供由人为设计或根据特定任务目标进行优化的提示,赋予预训练模型多种功能。

2023-07-01 16:04:16 364

原创 CLIP-Adapter: Better Vision-Language Models with Feature Adapters

为避免复杂的特征工程,CoOp 等方法通过上下文优化来学习一个有效的 Prompt,Prompt Tuning 大多应用于文本分支,因此提出一种方法在文本 / 图像分支添加适配器。

2023-07-01 12:44:03 1650

原创 Semantic Prompt for Few-Shot Image Recognition

由于缺乏与底层视觉表征的交互,它们无法提供新类的确切的判别视觉特征。为了缓解这一问题,使用额外的语义信息作为提示,引导视觉特征网络在少量的支持样本下获得具有判别性的类原型,从而使图像可以根据它们与这些原型的距离分类。人类感知系统具有一种独特的视觉感知机制,称为认知穿透性,它利用语言先验知识将正在进行的视觉感知加工调整为与类别相关的激活特征,从而促进对新物体的学习。和视觉特征之间的交互,这种语义丰富的表示具有强大潜力,可以为特征提取器提供关于新类的额外判别性视觉特征,从而产生更一般化的类原型。

2023-06-13 16:35:28 377 1

原创 Prompt, Generate, then Cache: Cascade of Foundation Models makes Strong Few-shot Learners

近年来,基于 CLIP 的方法得益于对比语言-图像预训练,显示出了良好的 FSL 性能。CaFo 结合了 CLIP 的语言对比知识、DINO 的视觉对比知识、DALL-E 的视觉生成知识和 GPT-3 的语言生成知识。利用GPT-3来生成 CLIP 的 Prompt,以更好地与图像中的视觉信息对齐。预训练的 DALL-E 可以在不需要任何人为工作的情况下扩大训练数据,实现时选择 DALL-E-mini。视觉对比模型作为传统的自监督学习方法,关注的是不同图像之间的区分。的分布相似度计算其对集合的权重。

2023-06-12 21:49:14 674

原创 MaPLe: Multi-modal Prompt Learning

具体而言,我们在语言分支中附加可学习的上下文标记,并通过耦合函数显式地将视觉 Prompt 置于语言 Prompt 上,以建立它们之间的交互。使用 Prompt 来适应CLIP (语言或视觉) 的单个分支中的表示是次优的,因为它不允许在下游任务上动态调整两个表示空间的灵活性。由此,提出了一种分支感知的多模态 Prompt,通过在两种模态之间共享提示来协调 CLIP 的视觉和语言分支。在 Prompt Tuning 中,必须采取多模态方法获得同时适应 CLIP 的视觉和语言分支,以实现上下文优化的完整性。

2023-06-12 20:48:21 677

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除