Vicky__3021-优快云博客

原创 InfoNCE损失介绍

InfoNCE（Information Noise Contrastive Estimation）损失是一种常用的损失函数，广泛应用于自监督学习和对比学习的任务中，尤其是在表示学习领域。其核心思想是通过最大化真实数据与噪声样本之间的区别来学习有意义的表示。

2025-03-05 10:20:16 1354

原创 LeetCode：2595.奇偶位数

把n当成一个二进制数来遍历。遍历的顺序是从低位到高位。具体来说，通过n & 1取二进制的最低位，然后把n右移一位，继续计算n & 1，这样可以取到次低位。如此循环，直到n=0为止。在遍历的过程中，统计奇偶下标比特位中的1的个数。方法一：遍历二进制数。

2025-02-20 15:49:18 287

原创 FreestyleRet: Retrieving Images from Style-Diversified Queries

FreestyleRet在多样化风格检索任务上优于现有的检索模型，并且可以同时检索多种风格的查询，互相增强检索性。1、现有的图像检索模型主要关注基于文本的查询，忽略了其他查询风格（如草图、艺术、低分辨率图像等）的能力，导致检索选项有限，用户意图可能存在歧义或偏差。1、首次提出了基于多样化风格查询的图像检索任务，并构建了相应的数据集DSR，包含文本、草图、低分辨率图像和艺术风格等多样化查询。2、随着AIGC的兴起，用户可以更容易地生成不同风格的图像，因此需要更灵活的检索模型来适应多样化的查询风格。

2025-01-15 11:33:14 930

原创 TransCenter: Transformers with Dense Representations for Multiple-Object Tracking

TransCenter模型如何通过多尺度融合和上采样，生成一个精确的中心热图，用于多目标跟踪中的物体检测。这种多尺度特征融合策略使得模型能够在保持高分辨率的情况下，综合不同尺度的信息，提高跟踪任务中的检测精度和鲁棒性。TransCenter模型中“中心热图分支”的结构概览。这一模块的主要目的是生成密集的中心热图，用于多目标跟踪任务中检测物体的位置。

2025-01-10 15:40:24 797

原创 SmartEdit: Exploring Complex Instruction-based Image Editing with Multimodal Large Language Models

目前基于指令的图像编辑方法，如InstructPix2Pix，由于在扩散模型中依赖于简单的CLIP文本编码器，在复杂场景下往往不能产生令人满意的结果。为了纠正这一点，本文介绍了SmartEdit，这是一种基于指令的图像编辑的新方法，它利用多模态大型语言模型(mllm)来增强其理解和推理能力。然而，在需要复杂推理的情况下，这些元素的直接集成仍然面临挑战。

2024-07-09 14:41:48 1651

原创 Linux常用命令（随时更新...）

以下为个人常用Linux命令，随时更新。

2024-01-30 10:16:39 274

原创 Nerf相关研究

随着Luma AI的到来，再次将Nerf推向浪尖，实用性进一步得到强化。Nerf仍以极速的发展速度前行，越来越多的研究方向不断涌现。

2024-01-12 14:12:36 1127

原创 Python实现深度迁移学习-CIFAR100-ResNet50

第二、三、四、五部分结构都包含了残差块，图中的绿色图块不会改变残差块的尺寸，只用于改变残差块的维度。在 Resnet50 网络结构中，残差块都有三层卷积，那网络总共有1+3×（3+4+6+3）=49个卷积层，加上最后的全连接层总共是 50 层，这也是Resnet50 名称的由来。对于每一张图像，它有fine_labels和coarse_labels两个标签，分别代表图像的细粒度和粗粒度标签，对应下图中的classes和superclass。

2024-01-10 11:35:21 1282

原创（详细版）Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models

本文强调了扩展LVLM视觉分支的词汇量是非常重要的，并成功地设计了一个简单的方法来证明这一说法。实验表明，所提供的模型Vary在多任务中取得了不错的成绩，这主要得益于我们生成的新词汇。尽管Vary的表现令人满意，但我们认为如何有效地扩大视觉词汇量仍有很大的改进空间，特别是与成熟且相对简单的扩展文本词汇量的方法相比。我们希望Vary有用而高效的设计能够吸引更多的研究关注这一方向。

2024-01-10 11:05:37 1535

原创 Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models

现代大规模视觉-语言模型（LVLMs）采用了相同的视觉词汇-CLIP，可以涵盖大多数常见的视觉任务。然而，对于一些需要密集和细粒度视觉感知的特殊视觉任务，例如文档级OCR或图表理解，尤其是在非英语环境中，CLIP风格的词汇可能在分词视觉知识方面效率较低，甚至遇到词汇表外问题。因此，我们提出了一种名为Vary的有效方法，用于扩大LVLMs的视觉词汇。Vary的过程自然地分为两个步骤：生成和整合新的视觉词汇。

2024-01-02 14:16:27 1010

原创 3DSlicer相关介绍

Freesurfer是用于MRI图像处理和分析的一款开源软件，可以进行多种模态数据的预处理、皮层重建、volume与surface的互相之间的配准等。Robot-assisted interventions 机器人的三维模型，解剖结构和可视化。图像分割、手术导航、针对新冠肺炎的肺部 CT 分析、实时3D超声重建、手术导航等等。开发平台，使用免费的开源软件快速构建和部署用于研究和商业产品的自定义解决方案。桌面软件，用于解决高级图像计算挑战，专注于临床和生物医学应用。Tractography 示踪成像。

2023-05-12 10:39:26 1970

原创 Nerflets: Local Radiance Fields for Efficient Structure-Aware 3D Scene Representation from 2D Superv

在室内和室外环境的实验中，我们发现nerflts:(1)比传统的全局nerf更有效地拟合和近似场景，(2)允许从任意视图中提取全景和测光渲染，(3)实现nerf很少执行的任务，如3D全景分割和交互式编辑。许多以前的方法都试图从图像中生成丰富的3D场景表示。KITTI是目前自动驾驶领域最重要的测试集之一，之前大概浏览了一遍，还存在很多疑问，这里对其做了进一步的学习，基本上了解了每个测试集的作用，KITTI主要是针对自动驾驶领域的图像处理技术，主要应用在自动驾驶感知和预测方面，其中也涉及定位和SLAM技术。

2023-05-10 10:00:00 419 1

原创 Ultra-NeRF: Neural Radiance Fields for Ultrasound Imaging

我们提出了一种物理增强的内隐神经表征(INR)用于超声成像，从重叠的超声扫描中学习组织特性。我们提出的方法利用基于光线跟踪的神经渲染进行新的视图合成。最近的出版物表明，INR模型可以从一组二维超声帧编码三维场景的表示。然而，这些模型未能考虑到超声成像固有的外观和几何形状的依赖于视图的变化。在我们的工作中，我们讨论了场景中依赖于方向的变化，并展示了受物理学启发的渲染提高了超声图像合成的保真度。特别地，我们实验证明，我们提出的方法生成几何上准确的b模式图像的区域，由于视图依赖的差异，超声图像的模糊表示。

2023-05-09 22:07:29 1948 1

原创 L_v2——成绩统计

小蓝给学生们组织了一场考试，卷面总分为 100 分，每个学生的得分都是一个 0 到 100 的整数。输出两行，每行一个百分数，分别表示及格率和优秀率。百分号前的部分四舍五入保留整数。如果得分至少是 60 分，则称为及格。如果得分至少为 85 分，则称为优秀。请计算及格率和优秀率，用百分数表示，百分号前的部分四舍五入保留整数。

2023-01-20 22:48:31 186

原创 NeuS: Learning Neural Implicit Surfaces by Volume Rendering for Multi-view Reconstruction

我们提出了一种新颖的神经表面重建方法，称为NeuS，用于从2D图像输入以高保真度重建对象和场景。现有的神经表面重建方法，例如DVR [Niemeyer等人，2020] 和IDR [Yariv等人，2020]，需要前景掩模作为监督，容易被困在局部最小值中，并且因此与具有严重自遮挡或薄结构的对象的重建作斗争。同时，用于新颖视图合成的最近的神经方法，例如NeRF [Mildenhall等人，2020] 及其变体，使用体积渲染来产生具有优化鲁棒性的神经场景表示，即使对于高度复杂的对象也是如此。

2023-01-20 15:15:29 1661

原创 L_v1——单词分析

小蓝正在学习一门神奇的语言，这门语言中的单词都是由小写英文字母组成，有些单词很长，远远超过正常英文单词的长度。小蓝学了很长时间也记不住一些单词，他准备不再完全记忆这些单词，而是根据单词中哪个字母出现得最多来分辨单词。输出两行，第一行包含一个英文字母，表示单词中出现得最多的字母是哪个。现在，请你帮助小蓝，给了一个单词后，帮助他找到出现最多的字母和这个字母出现的次数。第二行包含一个整数，表示出现得最多的那个字母在单词中出现的次数。输入一行包含一个单词，单词只由小写英文字母组成。最大运行内存: 256M。

2023-01-13 15:09:53 216

原创 Python图像处理

美颜后的图像整体清晰度较差，随后使用伽马校正对图像进行再进一步的加强，提高图像清晰度。最后对图像的色彩阈值进行设置，低于最低阈值和高于最高阈值的值变为0，最低阈值和最高阈值之间的值变为255。最后通过两个for循环实现图像的合成，即图像的加运算，将人物图像与风景图像进行合成，实现人像迁移。7、利用步骤6得到的二值图像将步骤5得到的风景图像中用于合成人像区域的像素置为黑色后，与步骤4得到的人像图像进行合成，实现人像迁移。6、利用图像处理算法将步骤4得到的人像图像进行二值化处理，人像部分为0，背景部分为1。

2023-01-11 15:04:14 674

原创搭建CNN网络训练fashion-mnist数据集（加入过拟合手段对比）

从以上准确率对比以及两幅loss值的变化图表可以得知，未加防止过拟合手段时，网络出现过拟合现象，添加防止过拟合手段之后，准确率提升，说明添加的防止过拟合手段是有效的。

2022-12-25 14:50:04 1345 3

原创搭建Lenet-5网络训练mnist数据集

搭建Lenet-5网络训练mnist数据集。

2022-12-25 14:41:59 617 1

原创搭建CNN网络训练mnist数据集

搭建CNN网络训练mnist数据集。

2022-12-25 14:37:35 1093

原创搭建全连接网络训练mnist数据集

搭建全连接网络训练mnist数据集

2022-12-25 14:33:03 653

原创数据结构v4——顺序表的按照值查找序号操作

在顺序表L找第一个值为e的元素，找到后返回其逻辑序号，否则返回0。注意：由于线性表的逻辑序号从1开始，这里用0表示没有找到值为e的元素。在算法实现时，应根据顺序表数据元素的类型ElemType编写判断两个数据元素是否相等的比较函数equals()。举例说明：（1）数据元素的类型ElemType为int类型（2）数据元素的类型ElemType为char [20] 类型（3）数据元素的类型ElemType为自定义结构体变量类型，判断两个数据元素是否相等，就需要比较所有结构体变量成员。要求：int Loc

2022-12-05 14:10:51 1279 3

原创数据结构v3——顺序表的按照序号查找值操作

顺序表L已存在，先判断i值是否合法，如果合法，将顺序表L中第i个数据元素的值赋给e，e要带出函数体，类型声明为引用。

2022-12-05 14:08:39 514

原创数据结构v2——顺序表的基本操作之插入操作

线性表的删除运算是指将表的第i(1≤i≤n)个元素删去，使长度为n的线性表( a1，…，ai−1，ai，ai+1，…，an)，变成长度为n-1的线性表( a1，…，ai−1，ai+1，…，an)。算法思想：在顺序表上实现删除运算必须移动结点，才能反映出结点间的逻辑关系的变化。若i=n，则只要简单地删除终端结点，无须移动结点；若1≤i≤n-1，则必须将表中位置i+1，i+2，…，n的结点，依次前移到位置i，i+1，…，n-1位置上，以填补删除操作造成的空缺。算法分析：

2022-12-04 12:57:50 256

原创数据结构v1——顺序表的基本操作之插入操作

时，在函数体内不需要改变主调函数中的实参变量的值，只需读取主调函数中的实参变量的值，因此函数形参定义为变量，采用值传递。，i-1上的结点，依次后移到位置n，n-1，…C++语言中用引用作函数的形参，被调函数对形参做的任何操作都影响了主调函数中的实参变量值，而操作一个变量比操作一个指针要简单的多，为了便于算法描述，本书函数参数传递机制采用有两种方式：值传递和引用传递。如果需要将函数中变化的形式参数的值反映在实际参数中，在C语言的实现中，就需要通过指针变量作形式参数，接收变量的地址，达到修改实参变量值的目的。

2022-11-30 22:59:42 3483

原创 JupyterLab安装

相比于jupyter notebook，jupyterlab可以通过安装插件，支持debug功能。如果你使用anaconda，比较新的版本是自带jupyterlab的。自己安装步骤如下：启动使用在命令行界面输入启动完成后，就可以看到如下界面：...

2022-07-14 15:54:28 1272

原创机器学习（三）——机器学习方法的分类

强化学习又称再励学习、评价学习或增强学习，是机器学习的范式和方法论之一，用于描述和解决智能体（agent）在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。整个过程如下图，智能体不断跟环境做交互，环境会处于不同的状态，智能体根据环境不同的状态采取某一种动作，然后环境反馈给其一个信息，通过过程模拟和观察来不断学习/提高决策能力。有监督、无监督学习预先都要搜集好一个数据集，基于数据集去学习，而强化学习最开始没有搜集数据，它可以通过模拟和观察来生成数据，更接近人类的学习模式。...

2022-07-09 23:21:14 807

原创机器学习（二）——基本术语

模型（model）：计算机层面的认知学习算法（learning algorithm）：从数据中产生模型的方法数据集（data set）：所有的样本或示例组成了数据集。示例（instance）或样本（sample）：对于某个对象的描述，每一个记录是一个示例或者是一个样本。属性（attribute）或特征（feature）：反映事物或者是对象在某方面的表现或性能的就叫做属性或者是特征。属性值（attribute value）：属性所对应的取值属性空间（attribute space）/样本空间/输入

2022-07-09 23:17:05 1146

原创 LeetCode：9. 回文数——简单

题目：9. 回文数给你一个整数 x ，如果 x 是一个回文整数，返回 true ；否则，返回 false 。回文数是指正序（从左向右）和倒序（从右向左）读都是一样的整数。例如，121 是回文，而 123 不是。提示：代码：提交记录：...

2022-07-06 18:05:01 298

原创使用ID3算法构造决策树——python

补充python代码，完成DecisionTree类中的fit和predict函数。为了完成本关任务，你需要掌握：ID3算法ID3算法其实就是依据特征的信息增益来构建树的。其大致步骤就是从根结点开始，对结点计算所有可能的特征的信息增益，然后选择信息增益最大的特征作为结点的特征，由该特征的不同取值建立子结点，然后对子结点递归执行上述的步骤直到信息增益很小或者没有特征可以继续选择为止。因此，ID3算法伪代码如下：使用决策树进行预测决策树的预测思想非常简单，假设现在已经构建出了一棵用来决策是否买西...

2022-07-06 17:13:22 6077

原创信息熵与信息增益——python

根据本关所学知识，完成calcInfoEntropy函数，calcHDA函数以及calcInfoGain函数。为了完成本关任务，你需要掌握：信息熵信息是个很抽象的概念。人们常常说信息很多，或者信息较少，但却很难说清楚信息到底有多少。比如一本五十万字的中文书到底有多少信息量。直到1948年，香农提出了“信息熵”的概念，才解决了对信息的量化度量问题。信息熵这个词是香农从热力学中借用过来的。热力学中的热熵是表示分子状态混乱程度的物理量。香农用信息熵的概念来描述信源的不确定度。信源的不确定性越大，信息熵...

2022-07-05 21:31:40 4910

原创 C语言实例_5

写一个加法程序，输入整数a,b，输出他们的和。2.不使用第3个变量，实现两个数的对调不用第三个变量，实现将两个数进行对调的操作。3.用宏定义常量已知某物品单价为30，数量为x。求商品的总价钱。用宏定义物品的单价。4.计算总成绩和平均成绩编程求从键盘上输入一个学生的五门成绩，计算出该学生的总成绩和平均成绩。5.求三角形的面积编程求以a、b、c为边长的三角形的面积area。6.计算两个正整数的最大公约数编程计算两个正整数的最大公约数。其中求最大公约数的函数原型已经给出，请在主函数中编程调用函

2022-07-05 21:13:52 9065

原创感知器 - 西瓜好坏自动识别——python

使用感知机算法建立一个模型，并根据感知器算法流程对模型进行训练，得到一个能够准确对西瓜好坏进行识别的模型。为了完成本关任务，你需要掌握：1.什么是感知器，2.感知器算法流程。数据介绍西瓜数据集中的样本特征一共有 30 个，包括：色泽、根蒂、敲声等。类别为是好瓜与不是好瓜。部分数据如下：由于我们的模型只能对数字进行计算。所以，我们用x1表示色泽，x2表示根蒂，x3 表示敲声。y 表示类别。其中，x1 = 0，表示青绿，x2 = 2，表示稍蜷， y=-1，表示不是好瓜。具体如下图：而我们的...

2022-07-04 21:38:41 3451

原创 C语言实例_4

将十个数进行从大到小的顺序进行排列。2.查找整数给出一个包含n个整数的数列，问整数a在数列中的第一次出现是第几个。3.计算数组中元素的最大值及其所在的行列下标值按如下函数原型编程从键盘输入一个m行n列的二维数组，然后计算数组中元素的最大值及其所在的行列下标值。其中m和n的值由用户键盘输入。已知m和n的值都不超过10。4.删除最大值输入10个互不相同的整数并保存在数组中，找到该最大元素并删除它，输出删除后的数组5.杨辉三角还记得中学时候学过的杨辉三角吗？具体的定义这里不再描述，你可以参考以下的

2022-07-04 21:32:49 2318 2

原创 scikit-learn线性判别实践 - 随机生成数的降维——python

利用 sklearn 构建 LDA 对数据进行降维。为了完成本关任务，你需要掌握：1. LinearDiscriminantAnalysis。LinearDiscriminantAnalysis在降维时，LinearDiscriminantAnalysis 的构造函数中有一个常用的参数可以设置：LinearDiscriminantAnalysis 类中的 fit 函数用于训练模型，fit 函数有两个向量输入：X ：大小为**[样本数量,特征数量]**的 ndarray，存放训练样本；Y ：值为整...

2022-07-03 21:15:30 2464

原创 C语言实例_3

给出的程序的功能是删除字符串（字符数组）s中所有的小写字母c。请改正程序中的错误，使它能得到正确的结果。2.去除空格符编写程序，功能是删除输入的字符串中的所有空格。字符串长度不超过30。输入：一行字符。输出：打印输出去除空格符后的结果字符串。3.字符串操作编写程序，功能是将源字符串s中所有下标为奇数的字符或 ASCII码为偶数的字符放入新字符（串）数组t中(规定第一个字符放在第0位中)。并输出处理后新的字符串。输入：一行字符，长度小于20.输出：处理后的字符串。4.找最长字符串

2022-07-03 21:12:31 1476

原创 C语言实例_2

在全院10000学生中，征集慈善募捐，当总数达到10万元时就结束，统计此时捐款的人数，以及平均每人捐款的数目。2.求阶乘之和请用单重循环和双重循环（嵌套）两种方式来求1！+2！+…+10！的和。输出两种方式所得到的结果。函数cycle1()为单重循环实现，函数cycle2()为双重循环实现，请补充完整。注意两个函数均无返回值，请直接打印输出结果。3.公约公倍数写两个函数，分别求两个整数的最大公约数和最小公倍数，用主函数调用这两个函数，并输出结果。两个整数由键盘输入。4.编写函数求表达式的值有如

2022-07-02 22:46:16 2261 1

原创线性判别分析 - 随机生成数的降维——Python

使用 python 实现 LDA 并对给定数据进行降维。为了完成本关任务，你需要掌握：1.线性判别分析算法思想，2.二类线性判别分析算法原理，3.线性判别分析算法流程。线性判别分析算法思想LDA 的思想分析非常朴素：给定训练样本集，设法将样本投影到一条直线上，使得同类样本的投影点尽可能接近、异类样本点的投影点尽可能远离。在对新样本进行分类时，将其投影到同样的这条直线上，再根据投影点的位置来确定样本的类别。示意图如下：用一句话来概括 LDA 思想就是：投影后类内方差最小，类间方差最大。二类线性...

2022-07-01 19:39:53 2456

原创 LeetCode：1175. 质数排列

题目：1175. 质数排列请你帮忙给从 1 到 n 的数设计排列方案，使得所有的「质数」都应该被放在「质数索引」（索引从 1 开始）上；你需要返回可能的方案总数。让我们一起来回顾一下「质数」：质数一定是大于 1 的，并且不能用两个小于它的正整数的乘积来表示。由于答案可能会很大，所以请你返回答案模 mod 10^9 + 7 之后的结果即可。提示：解析：n为1或2时，返回值为1。当n大于2时，通过遍历整除判断该数是否为质数，如果某个数可以整除i，那么i为合数。代码：...

2022-06-30 11:05:37 219

Python数字图像处理实验

利用Python和Opencv算法，实现下述功能： 1、从网上下载一张纯色背景前的老人面部照片，并且要求背景颜色与皮肤、衣服的颜色区别较大。 2、准备一张风景图片。 3、利用图像增强算法处理人像照片，以提升照片的品质。 4、利用图像处理算法去除老人面部的皱纹或色斑，实现美颜功能。 5、利用图像处理算法处理风景图片，使风景图片变得模糊，实现背景虚化。 6、利用图像处理算法将步骤4得到的人像图像进行二值化处理，人像部分为0，背景部分为1。 7、利用步骤6得到的二值图像将步骤5得到的风景图像中用于合成人像区域的像素置为黑色后，与步骤4得到的人像图像进行合成，实现人像迁移。

2023-01-03

计算机组成原理实验报告

存储器系统设计具体内容： 1、了解 MIPS 寄存器文件基本概念，进一步熟悉多路选择器、译码器、解复用器等Logisim 组件的使用，并利用相关组件构建 MIPS 寄存器文件。利用 Logisim 平台构建一个简化的 MIPS 寄存器文件，内部包含4个32位寄存器。 2、理解主存地址基本概念，理解存储位扩展基本思想，并能利用相关原理构建能同时支持字节、半字、字访问的存储子系统。 3、掌握 cache 实现的三个关键技术：数据查找，地址映射，替换算法；熟悉译码器，多路选择器，寄存器的使用；能根据不同的映射策略在 Logisim 平台中用数字逻辑电路实现 cache 机制。

2022-07-09

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

Python数字图像处理实验

计算机组成原理实验报告

飞机大战——python

HTTPS工作流程 传输协议、加密算法

Python实例-课设作业管理系统

空空如也

HTTPS工作流程传输协议、加密算法