自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(25)
  • 收藏
  • 关注

原创 【记录】解决Google网盘下载超过2G文件,导致的分卷压缩,解压后文件不完整问题

问题:复现模型的时候,按照作者给出的Google网盘下载数据之后,一个文件被压缩成2个zip(001.zip,002.zip),在只解压了001.zip后,粗略看了眼data文件夹,发现数量都对着,就直接去处理解压的数据集了,结果报错说数据集不完整,进一步排查应该是数据集解压的时候出了问题。

2024-12-23 16:34:20 317

原创 vscode的项目给gitlab上传

打开gitlab的项目仓库,就看到代码推上去了。2.打开终端,选择git bash。1.打开要上传的项目文件夹。3.在终端输入以下代码。

2024-11-27 11:14:20 1066

原创 【解决】下载textract,报错: invalid metadata: .* suffix can only be used with `==` operators extract-msg (<=

提示说pip版本应该低一些,pip<24.1,看了下我的pip版本刚好是24.1。

2024-11-25 17:53:22 640 2

原创 Vscode Python debug设置及常见错误

2.新建一个主py文件调用你要debug的文件,并在主py和debug的文件里设置断点,通过点击“继续”按钮,进行debug,也没有破坏项目的完整性。2.在想要debug的文件中设置断点,想看哪行代码的详细信息就在哪行加小红点。3.点击右上角小虫子图标,配置launch.json去debug当前文件。原因:在launch.json中使用的是相对路径,不是绝对路径。4.保存launch.json之后,就可以debug了。解决:注意在有XXX的虚拟环境下debug。

2024-11-08 14:25:36 828

原创 LightRAG部署:glm-4-flash LLM + BAAI/bge-m3 Embedding 模型

LightRAG会把一篇完整的doc分成多个chunks片段,并对每个chunk使用LLM分析(这里我们使用的就是glm-4-flash LLM去分析),生成多个实体和关系,并把实体构建成图节点,把关系构建成关系节点,融合生成知识图谱。2)high_level_keywords:主要包含query全局信息、更广泛的话题和主题。3.在LightRAG-main下创建一个test.py文件,配置glm-4-flash模型。1)low_level_keywords:主要包含query的特定信息和细节。

2024-11-08 11:00:24 1770 2

原创 解决pgAdmin4连接报错

windos ” + r -------> 输入:services.msc ---------> 进入服务 ------->找到postgresql-x64-15(我的版本是15) --------> 右键选中 ,点击"启动"打开pgAdmin4,输入密码,报错说:connection timeout expired。2.再次打开pgAdmin4,直接成功进入了 :)

2024-11-05 13:57:18 958

原创 Python代码操作postgreSQL

二.连接postgreSQL数据库。三.通过cur操作数据库。

2024-11-05 11:28:04 234

原创 Tortoise_orm迁移PostgreSQL数据库

在当前项目目录中会多出一个migrations目录和一个pyproject.toml文件。二.准备配置文件settings.py。三.准备一个models.py。若出现如下提示,则初始化成功。

2024-11-04 15:26:27 347

原创 Xpath解析HTML网页,爬取网页文本信息

1.使用F12快速进入开发人员工具(或快捷键:ctrl+shift+i,或点击浏览器右上角三个点“. . .”--->d点击更多工具--->点击开发人员工具)在Headers中有一个request headers字段,里面记录了headers和cookie的信息。打开elements查看网页元素。点击network,再对该页面进行刷新重新响应,再点击要爬取的页面html。2.查看页面信息headers和cookie。当提取不同元素下的信息时,用 | 连接。打印的信息是完整的HTML格式页面。

2024-10-14 14:09:46 1802

原创 Ubuntu20.04下载并启动Docker

可能会报错的是:已经start [ok]了docker,但是查看docker状态是is not running。如启动会显示: * Starting Docker: docker [ok]如果成功会显示版本号,:Docker version 27.3.1, build ce12230。原因是在/etc/init.d/docker文件的第62行语法错误。原因是ubuntu的网络连接是nat的,要改成iptables的。如启动成功会显示:* Docker is running。

2024-10-09 14:13:14 1282

原创 Ubuntu20.04下载yum

二. 下载yum,解决E:Unable to locate package yum以及E: The repository 'http://archive.ubuntu.com/ubuntu trusty Release' is not signed.W: GPG 错误:http://archive.ubuntu.com/ubuntu trusty Release: 由于没有公钥,无法验证下列签。yum命令一般是在centos当中使用的,apt-get是在Ubuntu中使用的。4)执行以下命令,更新源。

2024-10-08 18:07:20 726

原创 Marker把PDF转换成markdown格式输出

Marker是一款能够快速且准确地将PDF转换为Markdown的工具。它支持所有语言,最适合不需要大量 OCR 的数字 PDF。Marker基于管道式的深度学习模型。工作原理如下:1.提取文本OCR2.检测页面布局并找到阅读顺序3.格式化每个block4.合并每个block并后处理完整的文本。

2024-09-30 17:17:15 1939

原创 GOT-OCR-2.0模型调用,OCR识别,text格式输出

GOT-OCR-2.0是以LVLM大视觉语言模型驱动的OCR识别模型,是一个端到端的通用模型:1.补充了传统OCR系统需要通过整合多个领域专家网络来完成OCR任务。2.扩展了基于LVLM的OCR模型的英文场景限制,可以更准确地识别中文场景。

2024-09-29 17:51:23 1586 4

原创 windows下载deepspeed,This error originates from a subprocess, and is likely not a problem with pip.解决

查看pip install的时候,它下载的是tar.gz的文件,需要把tar.gz文件转成.whl才能成功下载。意思是轮子没有成功运行,这个不是pip install的问题。1.找到官方deepspeed的.whl文件并下载。3.再pip install 这个.whl文件名。2.把.whl放到一个文件夹里,并cd该文件夹。

2024-09-29 14:01:00 1347 2

原创 调用AzureOpenAI访问大模型接口,做completions处理文本

Azure OpenAI 服务提供对 OpenAI 强大语言模型的 REST API 访问,这些模型包括 GPT-4o、支持视觉的 GPT-4 Turbo、GPT-4、GPT-3.5-Turbo 和嵌入模型系列。这些模型可以轻松适应特定的任务,包括但不限于内容生成、汇总、图像理解、语义搜索和自然语言到代码的转换。用户可以通过 REST API、Python SDK 或 Azure OpenAI Studio 中基于 Web 的界面访问该服务。

2024-09-25 17:15:15 945

原创 .mp4视频转.wav音频,并切片保存

2.从视频中提取音频。3.将音频切片并保存。

2024-09-24 17:51:39 439

原创 AzureOpenAI调用Wisper,将.wav音频转为简体中文

2.输入要调用的大模型url,api_key,大模型版本以及wisper工具。

2024-09-24 17:37:07 233

原创 讯飞星火大模型Spark Max调用

4.返回“控制台”,打开自己的应用,并选择刚购买的模型,就可以看到tokens已下发。1.记录“我的应用”中的"APPID","APISecret","APIKey"二.在python中调用模型api,使用tokens。3.选择自己想要的模型,免费领tokens。2.点击右上角控制台,创建新应用。1.登录官网注册并个人认证。4.运行这段代码,进行调用。3.找domain值。

2024-09-23 14:28:35 654

原创 vscode中用python创建虚拟环境

题外:公司不让用Anaconda Prompt下载东西,说会被警告,有没有懂哥说一下为啥;

2024-09-20 15:28:50 3246

原创 【实验笔记】Kaggle房价预测经验总结

1.自己写的时候优化器用的是SGD,损失函数用的是均方误差,没有使用log_rmse,训练模型100个epoch,进行lr学习率调参,结果误差就一直过大,稍微将学习率调大一点loss就变成了nan,不知道哪里出了问题。但使用Adam优化器和log_rmse作为损失后,loss就变得正常。2.在def train()函数中有一个语句,之前写的是,运行的时候一直报错:这是因为函数内部对变量赋值进行修改后,该变量就会被Python解释器认为是局部变量而非全局变量。

2023-10-08 21:19:26 777 1

原创 【论文笔记】Swin Transformer

Swin Transformer是一种用来做图像预测任务的一种网络结构,它使用了NLP领域火爆的框架Transformer,在Transformer的结构上进行改进,通过一系列实验证明了Transformer结构也可以很好的用于视觉领域,与ViT不同的是:虽然ViT也使用了Transformer结构来处理视觉领域的任务,但在ViT的文章里,作者只说明了它可以用于分类任务;

2023-08-30 21:45:51 277 1

原创 【论文笔记】Video Vision Transformer(ViViT)

ViViT是一个视频分类模型,基于ViT模型进行了一些改进。ViT只用于2D图像的分类识别,视频与图像的区别是,视频引入了时间维度,因此ViViT模型在识别视频的时候也引入了时间维度,提出了tublet embedding来划分patches;3D滤波器的另一种生成方式;引入了时间维度的4种变体Attention模型,在各个数据集上的精确度都表现优秀:改进点:1.提出了一种"Tubelet embedding "方法划分patches。

2023-08-30 15:05:30 5681 2

原创 【论文笔记】TimeSformer

Attention (T+S)注意力机制,先计算只有time变量的时间自注意力分数,再计算只有space变量的空间自注意力分数。TimeSformer是一种用于处理视频分类的模型,它在ViT模型的基础上提出了Divided Space-Time。代码:: https://github.com/facebookresearch/TimeSformer.该论文提出的这种方式相比于原ViT模型,速度更快,精度更高,推理成本更低。1.输入片段:F个RGB帧组成的片段作为输入。2.拆分patches:每一帧分成。

2023-08-17 21:14:32 948 1

原创 VideoMAE模型复现(Linux)

VideoMAE是一个大模型,作者在里面用到了deepspeed分布式训练模块,我的pytorch是1.13.0+cuda11.7版,运行代码时报错说:No module named ’torch._six‘,原因是高版本的pytorch中没有_six模块;看了github上的运行环境,支持1.8.0和1.6.0版本的pytorch。

2023-08-07 11:03:58 3204 17

原创 论文研读:ICCV2023_CV视频基础模型

一.简介二.中文解读地址:https://zhuanlan.zhihu.com/p/618221217?utm_id=0三.原文地址:[2303.16058] Unmasked Teacher: Towards Training-Efficient Video Foundation Models (arxiv.org)四.已公开的部分代码:https://github.com/OpenGVLab/unmasked_teacher五.研读笔记

2023-07-18 11:52:49 209 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除