- 博客(47)
- 资源 (1)
- 收藏
- 关注

原创 安装PyTorch-Geometric包之Installation PyG踩坑汇总= =
由于 项目所需 然后现在不是最快的是 Pyg这个库吗= =,然后我总结了踩坑指南。我要说的是我是想跑这个GNN-for-NLP的代码然后需要安装这个一、win下的安装提醒:win下的安装,我当时安装了一半,但是由于博主的电脑有一些限制,我觉得可以按照下面的按照成功,而且我一般用ubun来干活,所以就没继续下去。官方的安装教程:请戳这里(●'◡'●)代码跑的是:GNN-for...
2019-11-20 14:05:16
10556
23
原创 多模态agent新工作亮点介绍
多agent搭配这项研究提出了一个名为FaST (Fast and Slow Thinking)的视觉智能机制,通过引入人类认知心理学中的快慢思维理论来增强视觉AI系统的性能。系统包含三个核心组件:切换适配器负责判断任务复杂度并选择合适的思维模式,建议适配器用于定位相关视觉区域,分割适配器提供精细的像素级分析。对于简单任务,系统使用快思维直接处理;而在面对不确定性(复杂查询)或不可见性(微小对象)等挑战时,系统会切换到慢思维模式,通过层次化的分析过程提供更准确的结果。
2025-04-01 17:23:58
744
原创 大模型下的视频理解阅读:VideoQA in the Era of LLMs: An Empirical Study
这篇文章做了一个a comprehensive study to VideoLLM’s behavior in VideoQA。
2024-08-09 21:19:53
390
原创 大模型下的视频理解video understanding(持续更新ing)
虽然有类似的模型但是when applied to narrative videos, which encompass informative contexts , these models with a pre-defined visual-textual template still exhibit limitations due to inflexibility。实验部分的话,任务很多,都是video 理解中最火的任务,基本都是sota了。,并进行了深入思考。除此之外容易混淆的setting用了。
2024-08-01 23:06:21
1015
原创 SAM 2: Segment Anything in Images and Videos
1.现有的应用像自动驾驶,AR等来说都是需要temporal localization beyond image-level segmentation(时序定位而不仅是图片分割)2. 一个好的分割模型不应该仅仅局限于图片领域,而是图视频两者兼具3. 视频的分割,需要进行时空分割物体,需要有时空分割的能力,比起图片分割更为困难。除此之外,视频相较于图片会有物体被遮挡等问题,即更为困难的分割。除此之外,视频拥有多帧的特点,如何“高效”处理这些帧也是一个难点。毕竟没卡 0.0。
2024-08-01 15:55:25
1366
原创 从cot到agent的survey视频笔记
when cot?推理多的任务时how cot?挖掘知识串起来remark. llm本身就有推理能力,cot只是帮助他或者告诉他输出形式,引导他推理(所以不是教哦,他本来就会呢)。llm or LMM。
2023-12-06 20:13:52
197
原创 大模型时代下做科研的思路
总结zhu老师观点Efficient1.这篇论文是真的好orz,总结了目前的视频类模型修改周边的一些参数,来训练,不改基础的模型(太大了。。。没资源没卡)引申:prompt 是你想模型干什么你就给提示(简单来说)什么是tuning呢? 就是调可能更好 (设计不同效果不一样)hard prompt:固定的COOP:soft prompt 自己学PEFT5. mixgen——这篇论文 一个模块 几个任务有涨点就行。怎么利用好大的模型,这样即使大模型不断发展也关我们没什么事情,因为设
2023-04-06 22:14:27
823
原创 多模态预训练精读总结(zhu老师的课
1.这篇工作的 visual encoder 不仅diss 之前的效率不高(之前是目标检测),更重要的一点是,在它看来,之前预先提取好的目标检测的物体特征 因为已经提取好了,不是end-to-end,所以导致多模态融合那块或者说多模态匹配那块,很可能会得到不好的结果。(multimodal encoder 学不好)how to do?它们决定 先 align 再 fuse,使用一个对比学习loss——ITC(看到这里感觉这个不是之前有的吗?
2023-04-06 17:33:00
641
原创 zip解压大文件 or file.z0、file.z1这种文件的解压
zip解压大文件 or file.z0、file.z1这种文件的解压参考资料参考资料error: invalid compressed data to inflate file #14: bad zipfile offset (local header sig)参考zip解压多个分卷.z0…文件参考
2021-07-04 09:49:38
1603
原创 视频理解论文汇总zoo(持续ing)
视频理解论文zooSlowFast Networks for Video RecognitionGcnet: Non-local networks meet squeeze-excitation networks and beyondVideo Classification With Channel-Separated Convolutional NetworksSTM: SpatioTemporal and Motion Encoding for Action RecognitionMore Is Les
2021-01-13 18:38:02
1633
原创 目标检测相关基础恶补——2020.12.25
目前就看了一个晚上就一下午,(●'◡'●)目标检测核心是:给一个图片,检测物体的类别和位置(框出来,即坐标)不管哪个方法,记住我们的目标 ,即 objectiveYOLO系列一阶段的方法,优点是速度快,整体来看就是:感觉是真正实现了,给一个图片,得到一个位置和类别。两阶段的中间还会生成一堆的预测框,无形中有很大的冗余 two-stage算法代表有R-CNN系列,one-stage算法代表有Yolo系列。 Yolo很快,因为用回归的方法,并且不用复杂的框架。 Yolo会基..
2020-12-25 20:20:27
513
原创 概率图模型+贝叶斯模型+VAE和GAN的部分理论(理解、解释)
结合了现有的几个知乎博客和自己的理解 + 阅读i相关应用类论文说实话,大家写的都太散了= =,很不方便理解亚花式解释AutoEncoder与VAE使用自动编码器我们就能够通过输出图片的编码过程得到这种类型图片的编码之后的分布,相当于我们是知道每种图片对应的噪声分布,我们就能够通过选择特定的噪声来生成我们想要生成的图片。VAE 和 AE 的区别:回忆一下我们在自动编码器中所做的事,我们需要输入一张图片,然后将一张图片编码之后得到一个隐含向量,这比我们随机取一个随机噪声更好,因为这包含着原图片的
2020-12-15 18:32:06
1557
原创 视频理解论文综述
Temporal Segment NetworkTSN提出的背景是当时业界做动作识别都是用 Two-stream CNN 和 C3D 比较多,它们都有个通病,就是需要密集采样视频帧,比如 C3D 中使用的是连续采样间隔的16 frames,这样当输入是个Long视频,计算量很庞大~ 故文中就提出了 稀疏时间采样策略Pros:通过 Sparse temporal sampling 可以扔掉很多冗余帧,初步满足实际应用的real-time要求Cons:对于Temporal特征欠考虑...
2020-12-14 15:48:56
2087
1
原创 弱监督的动作识别综述
3C-Net: Category Count and Center Loss for Weakly-Supervised Action Localization创新点:两个loss —— center loss 和 count lossCompletenessModelingandContextSeparationfor WeaklySupervisedTemporalAction Localization创新点:环境信息和动作信息的分辨,可以通过 gan 来进行 辨别,主...
2020-11-28 16:36:53
713
原创 动态规划Leetcode主要类型题解合集
此篇文章 结合了我看过的目前比较好的动态规划讲解 比如九章动态规划和labuladong那篇刷了40多道动态规划我总结了以下套路动态规划套路:在我看来每一类题目都不应该有套路,因为面试时候有可能不是原题,关键是了解思想状态:通过最后一步,即题目要求什么我们设置什么(选择和状态)状态转移方程:看看现在状态怎么由前一步来初始case:一般是状态为0的时候,实在不会就看看用了这个初始case的值是怎么设置的股票问题合集为了很好的定义 状态转移方程,我们就应该先明白 两个..
2020-11-27 17:45:53
227
原创 Referring Image Segmentation 综述
希望对您有用 (●'◡'●)Cross-Modal Self-Attention Network for Referring Image Segmentation用了 self-attention用了 avg-pool用了 类似lstm遗忘门开源Multi-task Collaborative Network for Joint Referring Expression Comprehension and Segmentation这篇是联合了引用表达式的理解 任务和...
2020-11-26 18:18:44
2580
原创 对比学习知识扩展——一堆奇奇怪怪的loss,快把我压死了orz...
1.交叉熵loss和对比loss区别交叉熵 loss 是 最后结果过一层 fc 然后进行 softmax 。 然后 fc 的系数 W 就是特征的模板(模板的意思是把一些特征用这个Wc参数转换后,就能判断它是否是c类,相当于这个Wc就是c类的模板)非参数样本分类 loss : 这里所谓非参数样本分类,则是将每个计算出的样本特征作为模板对比 loss2.Triplet Loss 和 对比loss 区别:Triplet Loss 负样本只有一对 对比 loss 负样本有很多对...
2020-11-20 13:04:03
5337
原创 自监督、对比学习、contrastive learning、互信息、infoNCE等
对比学习是自监督的一种,现在很火。自监督属于无监督的一种,即没有标记数据,相当于 cluster 聚类来判断物体类别(所以在label少的时候,unsupervised learning可以帮助我们学到data本身的high-level information,这些information能够对downstream task有很大的帮助。)理解对比学习,首先需要理解 互信息 ,因为只有知道了,我们需要加大什么互信息,才能更好的设计正负样本,从而利用对比学习来设计任务提高。互信息 [苏神]好特征的基
2020-11-16 16:07:42
14322
5
原创 nlp词向量预习总结——nlp任何任务的基础,nlp入门第一步
一图胜千言系列:1. 一开始是用 one-hot embedding缺点是 不能计算语义相似度、太大了(如果几百万个单词,分布式的是2上n,而这个才是n)2.分布式编码 static embedding: skipgram = 不经常出现的单词 cbow = 经常出现的单词 context embedding: 一开始是lstm来进行的。elmo就是好几个lstm得到的h 和自身的编码 concat。(deep bi-lstm) lstm-based 过渡到 Tr...
2020-11-13 17:53:16
221
原创 Leetcode 题 目——股票交易问题题解全
第一类:股票交易问题题解全class Solution: def maxProfit(self, prices: List[int]) -> int: n = len(prices) if not n or n < 2: return 0 dp = [[0,0] for i in range(n)] dp[0][0] = 0 dp[0][1] = -prices[0]
2020-07-06 13:40:50
255
原创 2019年保研夏令营时间经验汇总
感觉肯定有在看我的博客的嘿嘿,请不要做伸手党,如果有什么我没报名的,求私信我提醒,感恩!未报名估计进不去的: 截止时间 活动时间 公布时间 其他 电子科技大“计算机 截止至6月24日 ...
2020-06-01 21:11:32
676
1
原创 1001 A+B Format (20 分)
Calculatea+band output the sum in standard format -- that is, the digits must be separated into groups of three by commas (unless there are less than four digits).Input Specification:Each input ...
2019-09-12 18:00:09
123
原创 查找元素代码类比,都一个类型没什么好说的
1004#include <iostream>#include <cstdio>#include <string>//#include <algorithm>using namespace std;int main(){ int n; cin >> n; int flag = 1; str...
2019-02-24 01:28:57
178
原创 PAT-B 1032. 挖掘机技术哪家强(20)
为了用事实说明挖掘机技术到底哪家强,PAT 组织了一场挖掘机技能大赛。现请你根据比赛结果统计出技术最强的那个学校。输入格式:输入在第 1 行给出不超过 105 的正整数 N,即参赛人数。随后 N 行,每行给出一位参赛者的信息和成绩,包括其所代表的学校的编号(从 1 开始连续编号)、及其比赛成绩(百分制),中间以空格分隔。输出格式:在一行中给出总得分最高的学校的编号、及其总分,...
2019-02-24 01:24:45
137
原创 PAT-B 1018. 锤子剪刀布 (20)
输入格式:输入第 1 行给出正整数 N(≤105),即双方交锋的次数。随后 N 行,每行给出一次交锋的信息,即甲、乙双方同时给出的的手势。C 代表“锤子”、J 代表“剪刀”、B 代表“布”,第 1 个字母代表甲方,第 2 个代表乙方,中间有 1 个空格。输出格式:输出第 1、2 行分别给出甲、乙的胜、平、负次数,数字间以 1 个空格分隔。第 3 行给出两个字母,分别代表甲、乙获胜...
2019-02-23 04:09:53
132
原创 PAT-B 1008. 数组元素循环右移问题 (20)
一个数组A中存有N(>0)个整数,在不允许使用另外数组的前提下,将每个整数循环向右移M(≥0)个位置,即将A中的数据由(A0A1⋯AN−1)变换为(AN−M⋯AN−1A0A1⋯AN−M−1)(最后M个数循环移至最前面的M个位置)。如果需要考虑程序移动数据的次数尽量少,要如何设计移动的方法?输入格式:每个输入包含一个测试用例,第1行输入N...
2019-02-23 04:06:22
163
原创 PAT-B 1026. 程序运行时间(15)
要获得一个 C 语言程序的运行时间,常用的方法是调用头文件 time.h,其中提供了 clock() 函数,可以捕捉从程序开始运行到 clock() 被调用时所耗费的时间。这个时间单位是 clock tick,即“时钟打点”。同时还有一个常数 CLK_TCK,给出了机器时钟每秒所走的时钟打点数。于是为了获得一个函数 f 的运行时间,我们只要在调用 f之前先调用 clock(),获得一个时钟打点数 ...
2019-02-23 04:01:30
129
原创 PAT-B 1016. 部分A+B (15)
正整数 A 的“DA(为 1 位整数)部分”定义为由 A 中所有 DA 组成的新整数 PA。例如:给定 A=3862767,DA=6,则 A 的“6 部分”PA 是 66,因为 A 中有 2 个 6。现给定 A、DA、B、DB,请编写程序计算 PA+PB。输入格式:输入在一行中依次给出 A、DA、B、DB,中间以空格分隔...
2019-02-23 03:55:25
128
原创 PAT-B 1011.A+B和C (15)
给定区间 [−231,231] 内的 3 个整数 A、B 和 C,请判断 A+B 是否大于 C。输入格式:输入第 1 行给出正整数 T (≤10),是测试用例的个数。随后给出 T 组测试用例,每组占一行,顺序给出 A、B和 C。整数间以空格分隔。输出格式:对每组测试用例,在一行中输出 Case #X: true 如果 A+B>C,否则输出 Case #X: fal...
2019-02-23 03:45:12
150
原创 PAT-B 1001 害死人不偿命的(3n+1)猜想 (15)
1001 害死人不偿命的(3n+1)猜想 (15 分)卡拉兹(Callatz)猜想:对任何一个正整数 n,如果它是偶数,那么把它砍掉一半;如果它是奇数,那么把 (3n+1) 砍掉一半。这样一直反复砍下去,最后一定在某一步得到 n=1。卡拉兹在 1950 年的世界数学家大会上公布了这个猜想,传说当时耶鲁大学师生齐动员,拼命想证明这个貌似很傻很天真的命题,结果闹得学生们无心学业,一心只证...
2019-02-23 03:39:23
98
原创 绑定方式开启服务
package com.example.lenovo.testthree;import android.content.ComponentName;import android.content.Context;import android.content.Intent;import android.content.ServiceConnection;import android.os....
2018-07-06 01:52:09
218
visual_14.zip
2019-11-20
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人