自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(144)
  • 资源 (2)
  • 收藏
  • 关注

原创 大模型学习记录(六)-----提示词工程

本文介绍了提示工程(Prompt Engineering)的概念和应用,重点分析了零样本提示词和少样本提示词的区别。通过代码示例展示了两种提示方法在实际应用中的效果差异,结果表明少样本提示能获得更精确的回复。文章还介绍了链式思考(COT)技术,通过让AI展示推理过程来提升复杂问题的解决能力,并提供了相关代码实现和对比示例。这些技术能帮助用户更好地利用大型语言模型的能力,理解其局限性。

2025-11-24 21:09:18 138

原创 大模型学习记录(五)-------调用大模型API接口

摘要:本文介绍了两种调用Deepseek API的方法。首先需要安装指定版本的PyTorch环境,并通过load_dotenv获取API密钥。方法一使用requests库发送POST请求,包含URL、headers和请求数据;方法二使用OpenAI Python库创建客户端并调用chat.completions接口。两种方法都需指定模型为"deepseek-chat",设置用户消息和最大token数,最终输出API返回的内容。

2025-11-24 20:41:21 3

原创 大模型学习记录(四)-----Transformer文本翻译

本文详细解析了一个基于Transformer架构的英中机器翻译模型的实现。该系统采用端到端的神经网络方案,通过自注意力机制和多头注意力技术实现高效的序列转换。模型由编码器、解码器和线性投影层三部分组成:编码器负责解析英文句子并提取上下文信息;解码器基于编码器输出逐步生成中文翻译;线性投影层将解码结果映射到目标词汇空间。关键技术包括位置编码、掩码机制和自注意力计算,确保模型能正确处理序列顺序和依赖关系。训练采用Adam优化器、学习率调度和梯度裁剪等技术,推理过程则通过自回归方式逐步生成翻译结果。实验表明该模型

2025-11-22 14:11:36 343

原创 大模型学习记录(三)-------自定义搭建Transformer模型进行文本分类

摘要:本文深入解析Transformer架构在深度学习领域的核心优势,重点阐述其完全基于注意力机制的设计理念。文章详细介绍了Transformer的模块化架构(编码器-解码器)及其在不同任务中的灵活应用,特别强调了位置编码器在保留词序信息方面的关键作用。通过"我有一只猫"的实例,系统展示了文本数据预处理流程(分词、ID转换、长度统一、嵌入与位置编码)的完整实现。最后,文章提供了基于PyTorch的Transformer模型代码实现,包括模型训练、验证和预测的全流程,并展示了在情感分类任务

2025-11-22 13:53:30 18

原创 大模型学习记录(二)------Transform文本分类

本文介绍了Transformer模型架构及其应用。Transformer通过自注意力机制解决了传统RNN的顺序处理困境,实现了并行计算和长距离依赖捕捉。作为现代大语言模型(GPT等)的基石,Transformer已广泛应用于NLP、计算机视觉、多模态等领域。文章还提供了基于Transformer的文本分类代码示例,使用预训练模型对酒店评论进行情感分析(好评/差评分类),包括数据读取、模型训练和验证流程。该实现展示了如何利用HuggingFace的预训练Transformer模型进行迁移学习。

2025-11-20 21:56:52 157

原创 大模型学习记录(一)大模型介绍

摘要:人工智能大模型正深刻改变人类生活。这类拥有超大规模参数的深度学习模型,通过TB级数据训练,展现出强大的理解、推理和生成能力。其发展经历了从符号主义到深度学习的演进,2017年Transformer架构的诞生成为关键转折点。目前大模型已广泛应用于内容创作、智能搜索、代码开发等领域,并朝着多模态融合、AI智能体等方向发展。未来趋势包括模型小型化、安全性提升及个性化定制,预示着一个更智能、更普惠的AI新时代即将到来。(150字)

2025-11-20 14:07:34 380

原创 ppocr空格训练推理记录

2.训练空格的话类别是6625,不训练空格类别是6624。但看字典txt文件发现只有6623个字符,这是因为在训练代码中use_space_char设为ture的时候,会把空格append 到最后一个类别(1.在rec的yaml文件里有一个use_space_char参数,设置true表示训练空格,设置false表示不训练空格。),6623+空格=6624,还有一个类别是啥?个人感觉是第0个类别是用于推理的时候CTCdecode去除重复字符。

2025-11-17 11:14:21 73

原创 LlamaIndex + 本地LLM报错

使用LlamaIndex + 本地LLM实现本地RAG的时候报上面的错误,一直以为是ollama端口占用报错。后面发现是llama3.1:8b太大报的错。但奇怪的是使用langchain+llm+faiss用的也是llama3.1:8b模型,跑起来没啥问题,才占了6G(显卡12G)

2025-11-08 11:37:48 195

原创 torchvision\transforms\v2\_transform.py“, line 55, in transform raise NotImplementedError

torchvision版本问题导致的,torchvision==0.20.1可以解决这个问题。

2025-11-04 10:43:41 77

原创 flash-attn安装(Windows和Linux系统)

本文提供了两个flash-attention预编译轮子(wheel)的下载地址:第一个是Linux版本(https://github.com/mjun0812/flash-attention-prebuild-wheels/releases?page=3),包含较全的flash-attn版本和型号;第二个是Windows版本(https://github.com/kingbri1/flash-attention/releases)。下载时需注意与用户的Python版本、PyTorch的CUDA版本(非本地C

2025-10-23 10:02:48 558

原创 windows安装detectron2报错解决

在Windows系统安装detectron2时遇到错误,可通过更新setuptools解决。具体步骤:先执行pip install setuptools==75.8.0更新工具包,再运行pip install -e .完成安装。环境配置为:CUDA 12.6、PyTorch 2.8、Python 3.10。该方案有效解决了依赖版本不兼容问题。

2025-10-15 17:46:08 309

原创 GroudingDINO安装(第二版解决python3.10安装失败)

文章摘要:本文介绍了在Windows10系统下使用conda虚拟环境配置GroundingDINO目标检测模型的详细过程。环境配置包括Python3.10、CUDA12.4、torch2.4.0+cu124和torchvision0.19.0+cu124。安装过程中需修改setup.py文件编码为utf-8,并注意torch版本需大于2.1。文章提供了完整的测试代码,包含模型加载、图像预处理、预测和结果可视化功能,并针对可能出现的numpy版本冲突问题给出了解决方案(降低numpy和opencv-pytho

2025-09-17 17:24:23 860 4

原创 Windows系统下安装Dify

本文介绍了在Windows系统下使用Docker安装Dify平台的完整流程。首先需要安装Docker和WSL2环境,然后从GitHub下载Dify源码。关键步骤包括:修改docker-compose.yaml文件中的镜像源为阿里云镜像,配置Docker使用国内多个镜像源加速下载,建议将Docker默认存储路径改为非C盘以避免空间不足。最后通过PowerShell或Docker终端执行启动命令,完成安装后即可通过本地地址访问Dify平台。整个流程重点解决了国内用户可能遇到的下载速度慢和连接失败问题。

2025-09-11 18:13:38 505

原创 MCP库安装20250911

本文介绍了使用uv工具管理Python MCP服务器的安装配置流程。首先创建conda虚拟环境并安装uv库,然后建立项目文件夹,通过uv命令初始化项目结构并创建虚拟环境,最后添加mcp库并验证安装。该方法为Python环境下MCP服务器的部署提供了系统化的解决方案。

2025-09-11 17:50:46 342

原创 ppocr检测模型前处理

resize完之后归一化(/255, 减均值,除方差)

2025-08-06 18:19:12 201

原创 onnx显示每一层的维度

【代码】onnx显示每一层的维度。

2025-07-30 14:01:51 216

原创 paddle模型推理(Python)

【代码】paddle模型推理(Python)

2025-07-29 10:12:46 223

原创 ppocr方向分类器记录

该代码实现了图像预处理流程:1)将输入图像高度缩放到48像素,宽度等比缩放;2)若缩放后宽度超过192则截断为192;3)对图像进行归一化处理(/255后减0.5除0.5);4)当宽度不足192时进行右侧零填充。处理后的图像格式为(1,3,48,192)的float32张量,适用于分类模型输入。预处理保留了图像原始比例,同时确保输出尺寸统一。

2025-07-28 17:11:23 196

原创 paddlepaddle模型转onnx

本文介绍了使用paddle2onnx.export方法将PaddlePaddle模型转换为ONNX格式的经验。作者发现网上推荐的paddle.onnx.export和paddle2onnx.convert方法在Windows平台上存在问题,而直接使用paddle2onnx.export则可以完美解决。该方法需要指定模型文件(inference.pdmodel)和参数文件(inference.pdiparams),并支持设置opset版本、自动升级opset、优化等参数。特别提醒需要使用export_mode

2025-07-22 11:03:17 342

原创 ppocr训练自己的分类器(多方向)

PaddleOCR默认分类器仅支持0度和180度识别,但实际场景常需识别0°、90°、180°、270°四种角度。为此需修改模型网络结构,调整label_list和class_dim参数(类别数量)。数据格式为"路径\t类别",训练方法与det/rec模型类似,可参考相关文档。

2025-07-21 14:04:58 308

原创 parameter name [fc_0.w_0] have be been used. In dygraph mode, the name of parameter can‘t be same.Pl

摘要:在PaddleOCR训练分类器时出现参数名重复错误"parametername[fc_0.w_0]havebebeenused"。该问题是由于动态图模式下参数名称必须唯一,而fc_0.w_0已被使用。解决方法为全局搜索fc_0.w_0并注释相关代码。此错误通常在训练分类器并进行export导出操作时出现,需要注意网络结构中参数名的唯一性。

2025-07-21 13:39:14 240

原创 The shape of model params head.ctc_head.fc.weight [120, 6624] not matched with loaded [120, 6625]

摘要:使用PP-OCRv4中文识别预训练模型训练时出现维度不匹配警告(6624 vs 6625),导致FC层无法加载,训练效果差于原模型。经排查发现是因yaml文件中use_space_char参数设为false(不训练空格字符)导致字典维度少1。解决方法是将该参数改为true,使训练字符数与预训练模型保持一致。

2025-07-19 11:28:36 276

原创 Windows系统下GroundingDINO的安装2025(踩无数坑)

本文介绍了在Windows10系统下配置GroundingDINO开发环境的详细步骤。主要包含:1)使用conda创建Python3.8虚拟环境;2)安装特定版本的CUDA12.4、torch2.4.0和torchvision0.19.0;3)从GitHub下载GroundingDINO代码并编译安装。重点提示了版本兼容性的重要性,以及安装过程中可能遇到的常见问题(如_C未定义错误、VS编译器版本要求等),建议使用VS2017-2022版本并检查虚拟环境的VS运行时版本。

2025-07-11 18:14:21 2706 16

原创 mmrotate训练自己的数据(记录)

config表示旋转使用哪种模型算法进行训练,这里使用的是rotated_faster_rcnn_r50_fpn_1x_dota_le90.py,可以根据自己的要求进行选择使用。(2)训练数据格式分布如下:images文件夹里是图片,labels文件夹里是对应的txt文件。(1)一般是使用rolabelimg来标注,使用rolabelimg标注生成的是xml文件,但训练的时候使用的是txt文件。(6)训练图片格式修改,默认的代码只支持png格式的图片,在此处进行修改。(5)训练epoch设置。

2025-04-10 22:00:00 541

原创 YoloV11训练自己的训练集

(2)加载官方的预训练模型的话,它训练的imgsz是从官方的预训练模型里加载,所以如果在model.train的时候不设置imgsz的话,默认就是640,即使修改yaml文件的imgsz,还是会被640覆盖。(1)V11的超参数保存在cfg下的default.yaml文件,模型所需要的超参数会从那边获取。训练需要准备的东西:(1)数据集的yaml文件 (2)预训练模型。(1)yaml文件里的path输入的是训练数据集所在目录。训练完之后模型文件会保存在代码目录下的run文件夹里。

2024-12-13 11:29:01 323

原创 深度学习模型训练记录

(1)情况1:预训练权重是基于1000个类别进行训练的,而自己的数据只有几十类。解决方法:在加载权重的时候不加载最后的全连接层。

2024-12-03 10:42:31 165

原创 PPOCRV4用predict_det.py推理有结果用predict_system.py推理没结果

原因:rec模型效果太差,导致识别出来的阈值太低。在predict_system.py代码中,如果识别模型的得分太低,则不会将检测框绘制出来,所以就看不到结果。

2024-11-21 10:26:22 458

原创 解决PPOCRV4检测框比实际检测目标大

unclip_ratio参数可以调整输出检测框的大小,默认值是1.5所以检测框比目标大,改成1.0。修改Det训练时对应的yaml文件:例如 ch_PP-OCRv4_det_cml.yml。

2024-11-21 10:22:45 689

原创 load library failed: libnvidia-ml.so.1: cannot open shared object file: no such

原因:安装docker的时候勾选的是Hyper-V而不是WSL,重新安装docker desktop的时候勾选WSL就解决了。具体原因还是不太清楚,可能是wsl对于驱动的支持比Hyper-V更好。Windows系统在使用docker创建容器加载Gpu的时候报这个错误,显示找不到该文件,但查看本地又有这个文件。

2024-11-08 11:16:41 896

原创 Docker 操作指令

docker run -it --name 容器名称 -v 本地磁盘路径:/容器内部路径 镜像名称。8.如果已经创建了容器,可以把本地文件复制到容器内(要先启动容器)docker run -it --name 容器名称 镜像名称。7.挂载本地磁盘到docker工作目录(在创建容器的时候挂载)docker cp 本地文件路径 容器id:/容器内部路径。6.删除容器(如果容器在运行的话要先停止)3.创建容器(一个镜像可以创建多个容器)docker stop 容器名称。docker rm 容器名称。

2024-11-08 10:42:47 496

原创 windows环境下配置Mamba所需的库

解决在windows环境下安装mamba_ssm以及causal_conv等库经常出bug的问题,使用编译好的whl文件,下载即可直接使用。方便上手,减少配置环境所消耗的不必要时间

2024-09-13 10:48:42 483

原创 Visual Studio配置opencv环境

(4)配置链接器(如果配置的是debug模式则输入结尾为****d.lib的, 如果是release模式则去掉d,我的opencv版本是480,需要根据自己版本进行修改)(2)配置opencv的include和opencv2路径,具体路径和版本根据自己电脑配置。(1)打开属性页面(鼠标放在解决方案上,点击右键会有一个属性选项弹出)(3)配置opencv的lib文件(库目录)(5)测试代码(图片路径自行修改)

2024-09-13 10:23:21 613

原创 CMake学习记录一(windows)

自动搜索可能需要的程序、库和头文件的能力;独立的构建目录(如build),可以安全清理支持复杂的自定义命令(下载、生成各种文件)自定义配置可选组件从简单的文本文件()自动生成工作区和项目的能力在主流平台上自动生成文件依赖项并支持并行构建几乎支持所有的ID。

2024-08-14 17:14:03 570

原创 windows使用vscode和cmake编译报错error C2001: 常量中有换行符

解决方法:修改通过编码保存的格式为GBK。

2024-08-14 14:36:45 427

原创 VSCode在windows系统下编译动态链接库不生成Lib文件

这句话放在前面才可以生成lib文件,放在最后面不会生成lib。解决方法:在CMakeLists.txt文件加入。

2024-08-14 11:46:11 666

原创 目标检测之单类别NMS

在目标检测中,常见的是多类别NMS,也就是只对相同类别的boxes来计算IOU;但现实场景中经常遇到同一个物体被识别成2个类别,也就是模型认为它既是类别1也是类别2.这时候通过多类别nms就过滤不掉这种重叠的框。在官方的代码中已经有boxes, class_probs, nms_threshold这三个参数的输出,我们只需把它传入上面的函数就可以了。在官方yolo的基础上修改代码如下(注释掉的是官方原始的代码)这个函数的三个输入参数分别是:模型检测得到的框(x,y,w,h)、 每个框的得分、nms阈值。

2024-07-15 21:32:22 518

原创 YOLOV10训练集制作+Train+Val记录

yolov10训练预测

2024-07-02 14:32:59 831

原创 tensorrt动态batch推理注意事项

Pt文件转onnx文件再转engine文件需要注意的事项,tensorrt处理一个batch的数据

2024-06-26 16:24:55 767 5

原创 onnx转openvino模型(2022版本和2024版本)

网上很多方法都是用openvino自带的mo_onnx.py来转的,但个人下载的2022和2024版都没见到这些文件。(2)2024版openvino: python安装openvino2024的库,和2022的区别在于接口变了.(1)2022版openvino:python需要安装对应版本的openvino库(以2022.3.0为例)

2024-06-18 13:24:14 997

原创 vs2022配置openvino环境(无需修改系统环境变量)

一键配置openvino,无需添加到系统环境变量中

2024-06-18 13:15:41 623

golang爬虫第一版代码

golang爬虫第一版代码

2022-04-11

这是一个demo实战的代码1

这是一个demo实战的代码1

2022-02-13

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除