自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 【多模态】|CVPR2024|ViP-LLaVA: Making Large Multimodal Models Understand Arbitrary Visual Prompts

ViP-LLaVA:突破多模态模型的视觉提示理解能力 威斯康星大学团队提出创新模型ViP-LLaVA,解决现有多模态模型在区域特定理解上的局限。该研究突破性地采用视觉提示直接叠加技术,通过alpha混合将箭头、方框等任意标记融入原始图像,无需复杂区域编码。模型在Visual7W等基准测试中表现优异,超越专业区域编码模型。 核心创新: 首创支持任意视觉提示交互的多模态架构 简化设计:CLIP多层特征提取实现几何与语义的平衡 构建52万组视觉提示训练数据,模拟人类自然标注行为 推出ViP-Bench评估体系,涵

2025-10-22 15:18:10 776

原创 Windows和Linux系统下校验MD5值的方法

摘要: MD5算法用于验证文件完整性。Linux系统使用md5sum <文件路径>命令,Windows系统使用certutil -hashfile <文件路径> MD5命令来获取文件的MD5值并进行校验。

2025-10-22 11:03:45 150

原创 【多模态】| CVPR2024 |GLaMM:Pixel Grounding Large Multimodal Model

GLaMM是首个能够生成与像素级分割掩码无缝结合的自然语言响应的多模态模型。该模型通过全局图像编码器、区域编码器、大语言模型、定位图像编码器和像素解码器的协同设计,实现了场景级理解、区域级解释和像素级定位的统一。研究团队还提出了定位对话生成(GCG)新任务及评估协议,并构建了包含7.5M独特概念、810M分割区域的GranD数据集和用于微调的GranDf数据集。GLaMM支持文本和视觉双模态输入,能有效执行引用表达分割、图像说明等下游任务,为视觉定位对话提供了新范式。

2025-10-21 17:23:43 915

原创 docker容器中,如何访问本地ubuntu系统的文件夹

摘要:在Docker容器中访问本地Ubuntu系统文件夹,最常用的方法是通过目录挂载。使用docker run -it -v命令将宿主机目录映射到容器路径,如-v /home/用户名/my_project:/app/data。容器内对挂载目录的操作会同步到宿主机,路径不存在时会自动创建。建议使用绝对路径确保准确性,还可通过-w参数设置容器启动后的工作目录。这种方式实现宿主机与容器间的文件双向同步。

2025-09-24 10:32:54 216

原创 Ubuntu系统Mineru Docker调用GPU过程libnvidia-ml.so.1 bug解决

本文记录了在Ubuntu系统中配置Mineru Docker调用GPU时遇到的libnvidia-ml.so.1错误解决过程。作者通过排查发现核心问题是Docker默认运行时未正确设置为nvidia。解决步骤包括:检查Docker守护进程配置、修复/var/run软链接问题、彻底重启Docker服务,最终成功将默认运行时改为nvidia并验证容器可正常调用GPU。该过程详细记录了从错误诊断到最终解决的完整思路,特别针对Docker配置未生效和套接字路径异常等问题提供了具体解决方案。

2025-09-23 17:08:13 1168

原创 自己电脑远程控制Jetson Nano/nx

网上一共有三种方法,由于只能离线用网线远程控制,因此我选了其中最高效的方法:VNC Viewer远程连接提示:

2025-01-21 14:44:59 1588

转载 tf.device()指定tensorflow运行的GPU或CPU设备

在tensorflow中,我们可以使用 tf.device() 指定模型运行的具体设备,可以指定运行在GPU还是CUP上,以及哪块GPU上。设置使用GPU使用 tf.device(’/gpu:1’) 指定Session在第二块GPU上运行:import tensorflow as tfwith tf.device(’/gpu:1’):v1 = tf.constant([1.0, 2.0,...

2019-07-10 17:31:27 279

转载 Python-random.seed()的作用 np.random.permutation

andom.seed(0)作用:使得随机数据可预测,即只要seed的值一样,后续生成的随机数都一样。转载自:点击打开链接numpy.random.seed(0) ; numpy.random.rand(4)array([ 0.55, 0.72, 0.6 , 0.54])numpy.random.seed(0) ; numpy.random.rand(4)array...

2019-07-10 17:06:24 1895

转载 **Python 元组** tf.shape() x.get_shape().as_list()

Python 元组Python的元组与列表类似,不同之处在于元组的元素不能修改。元组使用小括号,列表使用方括号。元组创建很简单,只需要在括号中添加元素,并使用逗号隔开即可。创建空元组tup1 = ()元组中只包含一个元素时,需要在元素后面添加逗号tup1 = (50,)元组与字符串类似,下标索引从0开始,可以进行截取,组合等。(1) tf.shape()先说tf.shape()...

2019-07-10 15:45:52 875

转载 tensorflow学习笔记(一):sess.run(tf.global_variables_initializer())

当我们训练自己的神经网络的时候,无一例外的就是都会加上一句 sess.run(tf.global_variables_initializer()) ,这行代码的官方解释是 初始化模型的参数。那么,它到底做了些什么?一步步看源代码:(代码在后面)global_variables_initializer 返回一个用来初始化 计算图中 所有global variable的 op。这个op 到底是啥...

2019-07-10 15:32:49 978

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除