- 博客(141)
- 问答 (1)
- 收藏
- 关注
原创 多智能体架构 Insight-V:针对长链视觉推理瓶颈
https://arxiv.org/abs/2411.14432其实就搞了两个智能体 Insight-V:
2024-12-14 21:25:21
381
原创 InternVL 2.5 介绍
在InternVL 2.5中,我们系统地探索了MLLM中的各种因素,包括视觉编码器、语言模型、数据集大小和推理时间的变化如何影响模型的整体性能,展示了多模态模型中扩展与性能之间的关系。大视觉编码器减少数据依赖:在扩展MLLM时,大型视觉编码器显著降低了对训练数据的依赖。如表3所示,与配备6亿参数视觉编码器的Qwen2-VL - 72B相比,我们拥有60亿参数视觉编码器的InternVL2.5 - 78B仅使用1/10的训练标记就能实现更好的性能。这在扩展MLLM时大大降低了探索成本。数据质量至关重要。
2024-12-12 19:08:12
1404
转载 美团搜索广告召回技术
生成式算法相比判别式,能够有效的拓展整个召回的策略空间,2023年我们基于大模型的技术思想赋能现有的召回模型拿到了一些效果,但远未达到新技术方式的上限。看未来,一方面随着算力的逐渐提升,我们可以探索更大规模的生成式模型直接落地,另一方面可以探索在线的端到端生成式召回,来优化多级漏斗带来的样本偏差和漏斗效率问题。
2024-12-06 00:34:35
103
原创 视觉表征与多模态
视觉表征与多模态多模态大模型脱胎于大模型的发展,,从而多模态大模型这一“新领域”应运而生。作为在语言模态上得到了良好训练的 LLMs,。多模态大模型的整体架构可以被归类为如下图的五个部分,,通常而言,在训练过程中,多模态的编码器、生成器与大模型的参数一般都固定不变,不用于训练,主要优化的重点将落在输入投影与输出投影之中,而这两部分一般参数量仅占总体参数的 2%。
2024-11-16 11:41:07
836
原创 多模态表示、融合、对齐
有单流和多流,都是首先不同模态提取特征,区别就是在网络深层中,两种模态是否相互作用。如果提取特征后两个模态拼接,或者使用 self-attention 进行交互,那么就是单流,如果不在网络深层进行交互,就是多流。https://cloud.baidu.com/article/3326504 多模态学习核心技术:对齐、融合与表示。良好的表示能够捕捉数据的内在特征和结构,对于提高学习效率和性能至关重要。最后,表示的好坏直接影响了最终学习任务的效果。首先,对齐确保了不同模态间的相互关联性;
2024-10-18 00:00:30
1605
原创 latex Elsevier 模板给作者加脚注
后来在这里(https://tex.stackexchange.com/questions/116515/elsarticle-frontmatter-corresponding-author)发现说使用。但是实测发现不行,只能加一个标注,再加一个就是两个。\thanks{} 无效,网上有说使用。
2023-07-27 10:51:32
5006
原创 Huggingface 模型修改
Huggingface里面的模型封装的很好,想要直接修改代码并非容易的事,但是如果看文档,它有很多参数,能把你想到的大部分结果取出来,下面我就以一次经历来讲讲我如何在T5模型上面加一个featurefusion层。复制下来查看,发现可以直接用T5.encoder对input_ids进行编码,然后把encoder_outputs直接输入T5ForConditionalGeneration,就可以了。查看文档,可以直接把模型的输入参数输入generate函数里面。...
2022-07-25 11:02:56
4366
2
原创 PyLucene 安装
PyLucenepyLucene 是搜索引擎 Lucene 的 python 版本,官网 https://lucene.apache.org/pyluceneInstallOne by one install安装 g++sudo apt autoremovesudo apt-get install build-essential安装 jdkLinux之Ubuntu18.04安装Java JDK8的三种方式_软测小生-优快云博客_ubuntu安装jdk8# Openjdk 安装 JDK
2022-03-02 17:35:26
1657
1
原创 Opportunities and Challenges in Code Search Tools 笔记
1. IntroductionSeven Code search tool 分类text-based code search.I/O example code search.API-based code search.ADECK [147]code clone search.binary code search. Source code 会编译成不同二进制代码,对二进制代码检索.UI search. 使用 UI 草图进行搜索 pix2code [14]programming vid
2022-02-12 00:15:17
745
1
原创 matplotlib 绘图
figure, ax基础plt.***和ax.***的区别我认为所有不先讲清楚plt.和ax. 两种画图方式的区别的教程都是耍流氓。一上来就告诉你,plt.figure(), plt.plot(), plt.show(),这么画就对了的,都是不负责任的表现!在matplotlib中,有两种画图方式:plt.figure(): plt.***系列。通过http://plt.xxx来画图,其实是取了一个捷径。这是通过matplotlib提供的一个api,这个plt提供了很多基本的function可
2021-12-19 15:33:17
1609
原创 screen 命令详解
7. screen 命令详解基本命令# 创建窗口webscreen -S web# 列出所有screen -ls# 断开当前窗口(继续运行)键入 ctrl + a + d# 对于正在启动的后台进程修改名字screen -S 原始任务名 -X sessionname 修改后的任务名# 退出当前窗口exit# 关闭当前 windowsctr + a + k# 切换上一个 windowsctr + a + p# 给 windows 命名ctr + a + A# 显示所有
2021-10-09 15:57:01
12456
翻译 挂载群晖 nas 文件夹到 ubuntu
0. 前言由于服务器存储空间有限,但是如果有个外置的NAS存储服务就能够很好的解决服务器的磁盘问题。下面就简单介绍一下如何将NAS挂载在服务器上,简介的扩充磁盘。1. 设置NAS,共享目录1.1 文件服务 设置首先进入NAS服务,打开 [控制面板] ,在控制面版包含** 文件服务 ** 功能如图所示。然后进入文件服务,设置相关的文件权限:在“文件服务”右侧选择"SMB/AFP/NFS"一栏,滑倒最下面有个[NFS],打开后,有个"启动NAF服务"的复选框,选中 。这样我们就设置好了NFS服
2021-10-09 11:07:57
4553
3
原创 latex小结
分页符\clearpage # 插入分页符\let\clearpage\relax # 其后的 \include 就没有分页符了\input{} # 加入 tex 文件,不包括分页符。\inlcude{} # 加入 tex 文档,包括分页符图片引用,子图引用图片引用,首先把图片放到一个文件夹里,然后用下面的语法进行引用。\begin{figure}[htbp] %H为当前位置,!htb为忽略美学标准,htbp为浮动图形\centering %图片居中\includegrap
2021-08-24 16:50:25
878
原创 pytorch函数详解
pytorch函数详解在typora这里写之后复制到简书上1. torchvision1.1 transforms.Compose(transforms)把几个转换组合example:from PIL import Imaget_tran = []t_tran.append(transforms.Resize(image_size)) # 64t_tran.append(transforms.CenterCrop(image_size))img = Image.open(dat
2021-05-19 09:09:00
1970
1
翻译 论文阅读 MDMMT Multidomain Multimodal Transformer for Video
MDMMT Multidomain Multimodal Transformer for Video在MSRVTT和LSMDC基准测试中,我们提出了一个新的文本视频检索任务,我们的模型大大优于以前的所有解决方案。此外,在两个数据集上获得了最先进的结果。这种多域的推广是通过不同视频标题数据集的正确组合来实现的。我们表明,在不同数据集上的训练可以提高彼此的测试结果。此外,我们检查了许多流行数据集之间的交叉点,发现MSRVTT在测试和训练部分之间有显著的重叠,并且在 ActivityNet 上也观察到同样的情况
2021-03-27 21:44:47
1371
翻译 Similarity Reasoning and Filtration for Image-Text Matching
2021-4-Similarity Reasoning and Filtration for Image-Text Matching图推理,self-attention文本到图像的合成:AttnGAN: Fine-Grained Text to ImageGeneration With Attentional Generative Adversarial Net worksAbstract图像文本匹配在连接视觉和语言方面起着至关重要的作用,通过利用图像和句子之间的全局对齐,或区域和单词之间
2021-03-26 12:21:41
1790
原创 pytorch 分布式 gpu
2. 分布式gpu两种方法,第一是 nn.DataParallel 使用简单,第二是 torch.distributed,推荐使用第二个。注意:自己定义的模型属性方法,并行化后无法使用,torch.distributed 使用 model = model.module 即可解决,但是 nn.DataParallel 使用之后就会变成非并行。os.environ[‘CUDA_VISIBLE_DEVICES’] = ‘2,3’ 需要放到第一次使用 torch 之前,否则不会起作用。torch.dis
2021-03-20 23:07:40
432
原创 py 编码
5.编码这里主要针对 py2 来说。关于编码的问题我很早就注意到了,当时处理一段文本,发现这里面有很多这样的字符:\\xe5\\xb0\\x8f\\xe7\\xb1\\xb3\\xe6\\x89\\x8b\\xe6\\x9c\\xba \x91\xb8这是什么莫名其妙的东西,当时了解到这是非英文文本被 ascii (py2 默认编码) 编码处理后的结果,没错就是乱码,但是没有深入了解它,今天终于知道这是 十六进制字节码,这种字节码用 \ 进行转义,但是从 txt 读取之后就自动变成了 \\ 取消转
2021-02-10 19:50:29
868
原创 python http服务器
使用该命令即可产生服务器,传输文件# python 2python -m SimpleHTTPServer 端口号 # python 3python -m http.server 端口号ipv6支持但是问题来了,无论py2还是py3,默认都不支持ipv6为了解决ipv6支持的问题,2、3的方法还是略有区别python3python3安装目录/lib/http/server.py 的如下位置添加带有加号的两行就是把server_address = (bind, port) Handl
2021-02-02 17:20:16
876
原创 pytorch Kfold数据集划分
今天想使用K折方法进行训练,发现 pytorch dataloader 中没有需要的一键操作的代码,我自己写了一个。首先得到数据量,然后使用 sklearn.model_selection 的 KFold 方法划分数据索引,最后使用 torch.utils.data.dataset.Subset 方法得到划分后的子数据集。代码思路如下。import torchfrom sklearn.model_selection import KFolddata_induce = np.arange(0, da
2021-01-29 16:01:47
3946
2
翻译 linux screen 查看历史的输出信息
7. screen 命令详解基本命令# 创建窗口webscreen -S web# 列出所有窗口screen -ls# 断开当前窗口(继续运行)键入 ctrl + A + D# 退出当前窗口exit设置窗口 buffer 和查看历史信息之前一直觉得 screen 无法查看历史的输出信息,就是不能向上滚动很烦,后来发现是我自己不知道还有这种功能。设置缓存:输入 ctr + a + : 再输入 scrollback 1234,代表设置窗口缓存为1234行。查看历史信息:Ctr
2021-01-19 17:24:23
15187
2
原创 我认得embdedding
概述就是降维!我们训练一个具有单个隐藏层的简单神经网络,想要的是这些隐藏层的权重,这些权重实际上就是word vectors.trick:Subsample: 减少训练的词。Negative sample: 使每个训练样本只能更新很少的一部分模型权重,加快训练。简介https://machinelearningmastery.com/what-are-word-embeddings/https://www.zhihu.com/question/32275069词嵌入是自然语言处理(N
2020-12-01 20:08:53
491
原创 DOC: Deep Open Classification of Text Documents
老师问的问题1D CNN 卷积如何做?这里 Loss 函数如何做?这个 Loss 函数就是把该类作为正类,其他所有的都是负类。 I 是指示函数,p(yj=li)=Sigmoid(dj,i)p(y_{j}=l_{i}) = Sigmoid(d_{j,i})p(yj=li)=Sigmoid(dj,i) 第j 个文档,d的第i维输出。DOC: Deep Open Classification of Text Documents这篇文章目标:制造一个 m+1 分类器,保证训练集中 m
2020-12-01 20:07:33
821
原创 浏览器pdf朗读插件
浏览器pdf朗读插件最近发现了微软edge浏览器真的超级好用,也有了自己的插件商店,马上Chrome转Edge,主要是科学上网太麻烦了哈哈。Edge浏览器本身有很好的网页朗读功能,但是pdf文本却没办法,我在插件商店里找到了一个好东西。https://microsoftedge.microsoft.com/addons/detail/read-aloud-%E6%96%87%E6%9C%AC%E8%AF%AD%E9%9F%B3%E6%9C%97%E8%AF%BB%E5%8A%A9%E7%90%86/p
2020-12-01 20:03:22
1657
原创 PyCharm技巧
快捷键ctrl + Q: 查看函数帮助文档pycharm中 plt.imshow不显示图像在plt.imshow语句之后加 plt.show命令。弹出独立的显示窗口官方说明链接:https://intellij-support.jetbrains.com/hc/en-us/community/posts/115000736584-SciView-in-PyCharm-2017-3-reduces-functionality-of-Matplotlibpycharm从2017.3版之后,将ma
2020-11-10 09:58:25
528
原创 Gensim Word2Vec model
Word2Vec modelimport logginglogging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)Bag of word词袋模型,把每一个文本转化成一个固定长度的向量。但是向量间的距离并不总是反映含义上的差距。Inroduction of the word2vec modelWord2Vec Skip-gram modelContinuous-bag
2020-10-28 18:58:57
724
翻译 Gensim核心概念
Gensim核心概念官网:https://radimrehurek.com/gensim/auto_examples/tutorials/最近在学习自然语言处理,听说 gensim 库很好用,我想学习一下。The core concepts of gensim are:Document: some text.Corpus: a collection of documents.Vector: a mathematically convenient representation of a docu
2020-10-28 18:58:09
198
原创 matplotlib 在无 GUI 的服务器上画图
在无GUI的 shell 上画图直接画图会报错qt.qpa.screen: QXcbConnection: Could not connect to display localhost:11.0Could not connect to any X display.只需要加入下面这行代码:plt.switch_backend("agg")然后画图之后使用plt.savefig("result.png")保存图片即可...
2020-10-19 14:28:15
186
原创 贝叶斯滤波与matlab实现小机器人定位
贝叶斯滤波1. 概率基础回顾条件概率:p(x∣y)=p(x,y)/p(y) p(x,y)=p(x∣y)p(y)=p(y∣x)p(x)p(x|y)=p(x,y)/p(y) \\\ \\ p(x,y)=p(x|y)p(y)=p(y|x)p(x)p(x∣y)=p(x,y)/p(y) p(x,y)=p(x∣y)p(y)=p(y∣x)p(x)全概率公式:p(x)=∑yp(x,y)=∑yp(x∣y)p(y)p(x) = \sum\limits_y {p(x,y)}=\sum\
2020-10-16 16:28:44
1582
1
原创 空格编码问题
空格编码问题这次被百度文库坑惨了,它故意把空格编码弄错,我的程序怎么都搞不对。我从百度文库上面复制了一些代码:然后粘贴到sql上面运行,总是出错看看复制下来的空格和之前写的空格明显不一样:我查了一下编码,是这个编码字符编码10进制编码16进制Unicode编码10进制Unicode编码16进制14844034E2808281942002而普通的空格编码:字符编码10进制编码16进制Unicode编码10进制Unicode编码16进制
2020-10-03 17:29:27
728
翻译 xpath语法
选取节点XPath 使用路径表达式在 XML 文档中选取节点。节点是通过沿着路径或者 step 来选取的。 下面列出了最有用的路径表达式:表达式描述nodename选取此节点的所有子节点。/从根节点选取。//从匹配选择的当前节点选择文档中的节点,而不考虑它们的位置。.选取当前节点。…选取当前节点的父节点。@选取属性。感觉 // 用的最多,选择节点不用考虑位置。有时其中一个属性会随之时间变化,我们可以选择其他属性。这个是选择 tbo
2020-09-25 15:49:42
176
原创 爬取课程慢满不满
爬取课程慢满不满Requirementsselenium==3.141.0webdriver_manager==3.2.2主要思想这个项目主要是使用自动化方法,在选课网站查找某个课程能不能选。主要是首先自己登录,记录cookie。然后使用selenium进行爬取,找到是否满课,如果未满就给我发邮件。需要修改的地方主要是get_course.py文件中的check_course函数。里面的东西需要自己根据网页修改!还有get_cookie.py中的网址需要更改代码取得cookie并且存
2020-09-25 10:50:24
186
原创 Python之生成requirements.txt (2020)
Python之生成requirements.txt (2020)我们在平时写Python工程项目的时候,常常需要生成第三方模块依赖包文件requirements.txt,用于声明该项目所需要的Python的第三方模块,同时也方便别人阅读。为了能够方便快速地生成requirements.txt文件,我们可以借助Python的第三方模块:pipreqs,其官方网址为:https://github.com/bndr/pipreqs 。有了这个模块,我们就不需要人工生成requirments.txt,因为该模块
2020-09-25 10:33:27
211
原创 启动VMware虚拟机显示:物理内存不足无法使用
最简单办法编辑->首选项->内存 看看你分配的总内存是不是小于分配给那个虚拟机的,也可以开启允许交换大部分虚拟机内存
2020-09-24 09:21:32
1249
原创 爬取某一个网页所有某类型文件
爬取某一个网页所有某类型文件项目地址:https://github.com/fly-dragon211/spider爬取某一个网页所有某类型文件,使用requests库,可以添加代理,文件头等。spider.py给出的示例是爬取李宏毅2017年机器学习的课件。爬取github一个网页的pdf文件以爬取下面网址pdf文件示例https://github.com/zhanwen/MathModel/tree/master/%E5%9B%BD%E8%B5%9B%E8%AE%BA%E6%96%87/2
2020-09-16 18:00:17
1580
原创 Regular Expression 正则
Regular Expression举例re.findall可以找到所有的匹配字符,re.search只能找到第一个匹配字符。平时使用 (.*?) 即可以找到大多数内容。# 举例import rep1 = re.compile(r'-?\d\.\d{9}')# 这里打包成SRE_Pattern对象r = p1.findall('-0.008804422 0.024896538 0.000000000')print(r)p2 = re.compile(r'=(.+?)A.
2020-09-16 17:56:23
161
原创 Word2Vec 算法详解
Word2Vec 算法就是降维!我们训练一个具有单个隐藏层的简单神经网络,想要的是这些隐藏层的权重,这些权重实际上就是word vectors.这种trick还有很多形式。Another place you may have seen this trick is in unsupervised feature learning, where you train an auto-encoder to compress an input vector in the hidden layer, and
2020-09-08 18:11:03
1009
翻译 Word Embedding算法综述及资源
简介https://machinelearningmastery.com/what-are-word-embeddings/https://www.zhihu.com/question/32275069词嵌入是自然语言处理(NLP)中语言模型与表征学习技术的统称。概念上而言,它是指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中,每个单词或词组被映射为实数域上的向量。One of the benefits of using dense and low-dimensional v
2020-09-07 17:55:43
574
原创 下载谷歌云文件, scp操作
1. 下载谷歌云文件首先下载那个环境,下面是命令模板python ./download_google_drive/download_gdrive.py 11MktZjmA-4p0_Yi-JQfMP13q6qU_-OIB /var/www/html/abc.zip其中的download_gdrive.py在这个项目里面。githubcdsn博客说明感觉以后想要搜程序上的解决方案,可以到github上搜索试试,然后按时间排序(很多内容都有时效),可能会有意想不到的收获。2. scp操作文件传输
2020-09-05 10:03:20
672
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人