混混子儿-优快云博客

原创【记录】解决Google网盘下载超过2G文件，导致的分卷压缩，解压后文件不完整问题

问题：复现模型的时候，按照作者给出的Google网盘下载数据之后，一个文件被压缩成2个zip（001.zip，002.zip），在只解压了001.zip后，粗略看了眼data文件夹，发现数量都对着，就直接去处理解压的数据集了，结果报错说数据集不完整，进一步排查应该是数据集解压的时候出了问题。

2024-12-23 16:34:20 907

原创 vscode的项目给gitlab上传

打开gitlab的项目仓库，就看到代码推上去了。2.打开终端，选择git bash。1.打开要上传的项目文件夹。3.在终端输入以下代码。

2024-11-27 11:14:20 1872

原创【解决】下载textract，报错: invalid metadata: .* suffix can only be used with `==` operators extract-msg (＜=

提示说pip版本应该低一些，pip<24.1，看了下我的pip版本刚好是24.1。

2024-11-25 17:53:22 1209 2

2.新建一个主py文件调用你要debug的文件，并在主py和debug的文件里设置断点，通过点击“继续”按钮，进行debug，也没有破坏项目的完整性。2.在想要debug的文件中设置断点，想看哪行代码的详细信息就在哪行加小红点。3.点击右上角小虫子图标，配置launch.json去debug当前文件。原因：在launch.json中使用的是相对路径，不是绝对路径。4.保存launch.json之后，就可以debug了。解决：注意在有XXX的虚拟环境下debug。

2024-11-08 14:25:36 1921

原创 LightRAG部署：glm-4-flash LLM + BAAI/bge-m3 Embedding 模型

LightRAG会把一篇完整的doc分成多个chunks片段，并对每个chunk使用LLM分析（这里我们使用的就是glm-4-flash LLM去分析），生成多个实体和关系，并把实体构建成图节点，把关系构建成关系节点，融合生成知识图谱。2）high_level_keywords：主要包含query全局信息、更广泛的话题和主题。3.在LightRAG-main下创建一个test.py文件，配置glm-4-flash模型。1）low_level_keywords：主要包含query的特定信息和细节。

2024-11-08 11:00:24 2356 2

原创解决pgAdmin4连接报错

windos ” + r -------> 输入：services.msc ---------> 进入服务 ------->找到postgresql-x64-15(我的版本是15) --------> 右键选中，点击"启动"打开pgAdmin4，输入密码，报错说：connection timeout expired。2.再次打开pgAdmin4，直接成功进入了 :)

2024-11-05 13:57:18 1533

原创 Python代码操作postgreSQL

二.连接postgreSQL数据库。三.通过cur操作数据库。

2024-11-05 11:28:04 344

原创 Tortoise_orm迁移PostgreSQL数据库

在当前项目目录中会多出一个migrations目录和一个pyproject.toml文件。二.准备配置文件settings.py。三.准备一个models.py。若出现如下提示，则初始化成功。

2024-11-04 15:26:27 608

原创 Xpath解析HTML网页，爬取网页文本信息

1.使用F12快速进入开发人员工具（或快捷键：ctrl+shift+i，或点击浏览器右上角三个点“. . .”--->d点击更多工具--->点击开发人员工具）在Headers中有一个request headers字段，里面记录了headers和cookie的信息。打开elements查看网页元素。点击network，再对该页面进行刷新重新响应，再点击要爬取的页面html。2.查看页面信息headers和cookie。当提取不同元素下的信息时，用 | 连接。打印的信息是完整的HTML格式页面。

2024-10-14 14:09:46 2276

原创 Ubuntu20.04下载并启动Docker

可能会报错的是：已经start [ok]了docker，但是查看docker状态是is not running。如启动会显示： * Starting Docker: docker [ok]如果成功会显示版本号，：Docker version 27.3.1, build ce12230。原因是在/etc/init.d/docker文件的第62行语法错误。原因是ubuntu的网络连接是nat的，要改成iptables的。如启动成功会显示：* Docker is running。

2024-10-09 14:13:14 1769

原创 Ubuntu20.04下载yum

二. 下载yum，解决E：Unable to locate package yum以及E: The repository 'http://archive.ubuntu.com/ubuntu trusty Release' is not signed.W: GPG 错误：http://archive.ubuntu.com/ubuntu trusty Release: 由于没有公钥，无法验证下列签。yum命令一般是在centos当中使用的，apt-get是在Ubuntu中使用的。4）执行以下命令，更新源。

2024-10-08 18:07:20 951

原创 Marker把PDF转换成markdown格式输出

Marker是一款能够快速且准确地将PDF转换为Markdown的工具。它支持所有语言，最适合不需要大量 OCR 的数字 PDF。Marker基于管道式的深度学习模型。工作原理如下：1.提取文本OCR2.检测页面布局并找到阅读顺序3.格式化每个block4.合并每个block并后处理完整的文本。

2024-09-30 17:17:15 3655

原创 GOT-OCR-2.0模型调用，OCR识别,text格式输出

GOT-OCR-2.0是以LVLM大视觉语言模型驱动的OCR识别模型，是一个端到端的通用模型：1.补充了传统OCR系统需要通过整合多个领域专家网络来完成OCR任务。2.扩展了基于LVLM的OCR模型的英文场景限制，可以更准确地识别中文场景。

2024-09-29 17:51:23 2145 4

原创 windows下载deepspeed，This error originates from a subprocess, and is likely not a problem with pip.解决

查看pip install的时候，它下载的是tar.gz的文件，需要把tar.gz文件转成.whl才能成功下载。意思是轮子没有成功运行，这个不是pip install的问题。1.找到官方deepspeed的.whl文件并下载。3.再pip install 这个.whl文件名。2.把.whl放到一个文件夹里，并cd该文件夹。

2024-09-29 14:01:00 1617 2

原创调用AzureOpenAI访问大模型接口，做completions处理文本

Azure OpenAI 服务提供对 OpenAI 强大语言模型的 REST API 访问，这些模型包括 GPT-4o、支持视觉的 GPT-4 Turbo、GPT-4、GPT-3.5-Turbo 和嵌入模型系列。这些模型可以轻松适应特定的任务，包括但不限于内容生成、汇总、图像理解、语义搜索和自然语言到代码的转换。用户可以通过 REST API、Python SDK 或 Azure OpenAI Studio 中基于 Web 的界面访问该服务。

2024-09-25 17:15:15 1227

原创 .mp4视频转.wav音频，并切片保存

2.从视频中提取音频。3.将音频切片并保存。

2024-09-24 17:51:39 1229

原创 AzureOpenAI调用Wisper，将.wav音频转为简体中文

2.输入要调用的大模型url，api_key，大模型版本以及wisper工具。

2024-09-24 17:37:07 355

原创讯飞星火大模型Spark Max调用

4.返回“控制台”，打开自己的应用，并选择刚购买的模型，就可以看到tokens已下发。1.记录“我的应用”中的"APPID","APISecret","APIKey"二.在python中调用模型api，使用tokens。3.选择自己想要的模型，免费领tokens。2.点击右上角控制台，创建新应用。1.登录官网注册并个人认证。4.运行这段代码，进行调用。3.找domain值。

2024-09-23 14:28:35 947

原创 vscode中用python创建虚拟环境

题外：公司不让用Anaconda Prompt下载东西，说会被警告，有没有懂哥说一下为啥；

2024-09-20 15:28:50 3753

原创【实验笔记】Kaggle房价预测经验总结

1.自己写的时候优化器用的是SGD，损失函数用的是均方误差，没有使用log_rmse,训练模型100个epoch，进行lr学习率调参，结果误差就一直过大，稍微将学习率调大一点loss就变成了nan，不知道哪里出了问题。但使用Adam优化器和log_rmse作为损失后，loss就变得正常。2.在def train()函数中有一个语句，之前写的是,运行的时候一直报错：这是因为函数内部对变量赋值进行修改后，该变量就会被Python解释器认为是局部变量而非全局变量。

2023-10-08 21:19:26 1020 1

原创【论文笔记】Swin Transformer

Swin Transformer是一种用来做图像预测任务的一种网络结构，它使用了NLP领域火爆的框架Transformer，在Transformer的结构上进行改进，通过一系列实验证明了Transformer结构也可以很好的用于视觉领域，与ViT不同的是：虽然ViT也使用了Transformer结构来处理视觉领域的任务，但在ViT的文章里，作者只说明了它可以用于分类任务；

2023-08-30 21:45:51 526 1

原创【论文笔记】Video Vision Transformer（ViViT）

ViViT是一个视频分类模型，基于ViT模型进行了一些改进。ViT只用于2D图像的分类识别，视频与图像的区别是，视频引入了时间维度，因此ViViT模型在识别视频的时候也引入了时间维度，提出了tublet embedding来划分patches；3D滤波器的另一种生成方式；引入了时间维度的4种变体Attention模型，在各个数据集上的精确度都表现优秀：改进点：1.提出了一种"Tubelet embedding "方法划分patches。

2023-08-30 15:05:30 7448 2

原创【论文笔记】TimeSformer

Attention (T+S)注意力机制，先计算只有time变量的时间自注意力分数，再计算只有space变量的空间自注意力分数。TimeSformer是一种用于处理视频分类的模型，它在ViT模型的基础上提出了Divided Space-Time。代码：: https://github.com/facebookresearch/TimeSformer.该论文提出的这种方式相比于原ViT模型，速度更快，精度更高，推理成本更低。1.输入片段：F个RGB帧组成的片段作为输入。2.拆分patches：每一帧分成。

2023-08-17 21:14:32 1285 1

原创 VideoMAE模型复现（Linux）

VideoMAE是一个大模型，作者在里面用到了deepspeed分布式训练模块，我的pytorch是1.13.0+cuda11.7版，运行代码时报错说：No module named ’torch._six‘，原因是高版本的pytorch中没有_six模块；看了github上的运行环境，支持1.8.0和1.6.0版本的pytorch。

2023-08-07 11:03:58 4153 20

原创论文研读：ICCV2023_CV视频基础模型

一.简介二.中文解读地址：https://zhuanlan.zhihu.com/p/618221217?utm_id=0三.原文地址：[2303.16058] Unmasked Teacher: Towards Training-Efficient Video Foundation Models (arxiv.org)四.已公开的部分代码：https://github.com/OpenGVLab/unmasked_teacher五.研读笔记

2023-07-18 11:52:49 284 1

qdmqdtt的博客