落难Coder-优快云博客

除了这个原因以外，拆分 Rerank 阶段也提供了更加灵活的筛选文档的能力，比如 Ragflow 就是在 Rerank 中使用 0.3 * 文本匹配得分 + 0.7 * 向量匹配得分加权得出综合得分进行排序，Rerank 阶段可以提供类似这种灵活的选择手段。原因是 Embedding 过程是将文档的所有可能含义压缩到一个向量中，方便使用向量进行检索。那直接执行 Rerank 是否可行呢？肯定也是不行的，Rerank 需要 1 对 1 计算相似分的，在海量的文档中一一比对查找文档，效率肯定是不能接受的。

2024-10-17 10:46:51 714

原创如何调整batch size和学习率之间的关系？

一般来说，我们batch size 大一些，则learning rate也要大一些。×举例来说，原先别人的batch size 为128， learning rate为0.0005，那么当我们把batch size改为1024时，则新的学习率有这样的推荐值：0.0005 * sqrt(1024/128) = 0.0005 * sqrt(8) = 0.001412。

2024-10-16 13:22:24 773

原创 Docker 安装与使用

https://yeasy.gitbook.io/docker_practicehttps://blog.youkuaiyun.com/llc580231/article/details/139979603

2024-10-15 21:32:20 125

原创理解 PyTorch 中的 logits 和交叉熵损失函数

logits是模型输出的未归一化预测值，通常是全连接层的输出。在分类任务中，logits 的形状通常为，其中batch_size是一个批次中的样本数，num_labels是分类任务中的类别数。logits是模型的输出。假设logits的形状为，例如(32, 3)，表示每个批次有32个样本，每个样本有3个类别的预测值。交叉熵损失函数（）是一种常用于分类任务的损失函数。它衡量的是预测分布与真实分布之间的差异。具体而言，它会计算每个样本的预测类别与真实类别之间的距离，然后取平均值。

2024-10-09 14:33:12 572

原创详解白盒和黑盒知识蒸馏

与白盒蒸馏相反，黑盒蒸馏不需要访问教师模型的内部信息。学生模型仅从教师生成的输入输出配对中学习，而对其内部操作没有任何了解。例如 LaMini-LM 这项工作创建了一组 258 万条指令，并采用 GPT-3.5 Turbo 来生成对这些指令的响应。在白盒蒸馏中，教师模型的架构和权重是完全可访问的。这种透明度使学生模型不仅可以学习教师模型的输出，还可以学习其内部表示和决策过程。黑盒蒸馏也被认为是一种很有前途的工具，可以将思维链 (CoT) 的力量从较大的模型转移到较小的模型。

2024-10-09 14:20:13 791

原创大语言模型 LLM 量化技术略解

随着语言模型规模的不断增大，其训练的难度和成本已成为共识。而随着用户数量的增加，模型推理的成本也在不断攀升，甚至可能成为限制模型部署的首要因素。因此，我们需要对模型进行压缩以加速推理过程，而模型量化是其中一种有效的方法。大语言模型的参数通常以高精度浮点数存储，这导致模型推理需要大量计算资源。量化技术通过将高精度数据类型存储的参数转换为低精度数据类型存储，可以在不改变模型参数量和架构的前提下加速推理过程。这种方法使得模型的部署更加经济高效，也更具可行性。浮点数一般由3部分组成：符号位、指数位和尾数位。

2024-10-07 20:01:24 1054

原创在Linux上安装其他版本的cmake 或升级cmake

当用cmake编译的时候用的还是系统中旧的cmake版本，我们需要把这个cmake指定为我们新安装的版本。，我们这里编译要求cmake的版本至少是3.13以上。旧版本的cmake可以不用卸载的，所以上面的命令。3、把新安装的cmake建立系统cmake路径的。3、下载cmake的安装包，这里我下载的是。如下，已经成功安装了指定的cmake的版本。2、安装我们自己需要的cmake版本。，它自动把好多依赖都卸载了，把我的。上面的傻逼命令，会把之前安装的。3、查看安装好的cmake版本。卸载旧版本的cmake。

2024-10-02 22:11:35 820

原创为你的 Github 仓库引入自动构建的Github Pages静态页面

在您的项目的 Github 页面进入。在Github仓库根目录下创建。

2024-09-15 12:28:51 610

原创详细对比 SFT 和 RLHF 模型的区别

研究发现，在模型的泛化能力上，经过RLHF训练的模型表现更为出色，超越了仅经过SFT的模型。然而，在回复的多样性方面，RLHF则显著不如SFT，即经过RLHF的模型倾向于产生更为相似的回复。SFT后的模型能够更加精准的识别InstructionTokens、并依赖这些指令进行生成，而RLHF作为一种更有力的训练方式，能够进一步强化LLM对指令的识别及响应能力，因此在泛化性提升上，RLHF>SFT。在多样性上，输出模式、风格的集中是RLHF的必然后果，因此RLHF后LLM的多样性会有所降低。

2024-09-06 11:30:06 1278

原创国内快速高效下载 HuggingFace上的各种大语言模型

【代码】国内快速高效下载 HuggingFace上的各种大语言模型。

2024-09-05 18:03:53 665

原创 LLM 词汇表

检索增强生成（RAG）是一种将信息检索与语言模型生成结合起来，以提高生成文本的准确性和相关性，并更好地将模型的响应基于证据的方法。模型使用这些信息来指导其生成的输出。在与语言模型进行“文本”级别的交互时，标记通常是隐藏的，但在检查语言模型的确切输入和输出时变得相关。较高的温度会产生更具创造性和多样性的输出，允许多个不同的措辞变体，在小说的情况下，也可以产生不同的答案。较大的上下文窗口可以让模型理解和响应更复杂和更长的提示，而较小的上下文窗口可能会限制模型处理较长提示或在长时间对话中保持连贯性的能力。

2024-09-03 21:41:11 971

原创丝滑切换多个LoRA权重（LoRA加载与卸载方法）

对于 LoRA 方法特别说明：要合并并卸载当前激活的适配器，以便 LoRA 的权重被添加到基础模型的权重中，并移除注入的模型以恢复基础的 transformers 模型（同时保留添加的 LoRA 权重），请使用。

2024-08-18 23:16:38 1191

原创大语言模型（LLM）什么时候需要微调？微调的步骤是什么？

微调不是万能的。

2024-08-13 14:31:10 225

原创使用MinHash和LSH进行大规模文本数据去重

假设我们有一组包含简单中文文本的数据。我们首先对每条文本进行分词，然后计算每条文本的MinHash值，并使用LSH将这些值插入到一个可查询的结构中。最后，我们查询每个文本的MinHash，找出所有相似的文本。这种方法特别适合处理语义上相似的文本，而不仅仅是字面上完全相同的文本。在这个例子中：文档0和文档3非常相似，因为它们都描述了“今天天气好，适合出去玩”的情景，尽管用词略有不同。文档2和文档4虽然都提到了“明天有雨”，但用词和句式的不同可能使得它们的相似度低于阈值。

2024-08-08 14:14:56 918

原创 LLM 预训练监督微调阶段 tricks

🌟LLM的预训练tricks使用“base”模型进行继续预训练（而不是“chat”模型），“base”模型的能力是最好的，因为还没有进行人类价值观的对齐训练。缩放定律（Scaling law）是非常重要的，Scaling law不仅适用于LLM的预训练，也适用于有监督微调阶段的训练。对于预训练过程的超参数设置（Batch size / 学习率）应当参考来自其他论文或者先前工作的一些设置。继续预训练需要百万，千万甚至上亿的tokens训练语料，过少的训练语料不支持进行预训练工作。多阶段的继续预训练

2024-08-08 09:46:41 517

原创大模型Prompt Template格式

【代码】大模型Prompt Template格式。

2024-08-07 20:43:30 380

原创 PEFT配置文件LoraConfig中的target_modules参数详解

如果我们采用的是未在实现定义的大语言模型列表内，因此必须手动显示指定。如果你本地安装了pdft安装包，则可以在以下位置看到。针对了部分预制的大语言模型，定义了默认的。

2024-08-07 18:28:22 3873

原创将扩充的中文 tokenizer 模型应用于自己的LLM模型上（embedding参数修改）

在中我们详细讲述了如何基于自己的数据对tokennizer模型进行训练调整。在本文中，我们将继续讲述基于SentencePiece扩充LLaMa的词表，但是扩充了词表后的下一步该怎么操作呢？如何将新增的token在模型的embedding层和lm_head层初始化呢？

2024-08-06 21:44:11 641

原创手把手带你了解和实践扩充 LLaMA 大语言模型的 tokenizer 模型（实现中文token过程）

开始训练，这里面有几个参数要注意一下，model_type分词算法选择bpe，split_digits为True，byte_fallback为True，和LLaMa 保持一致，max_sentence_length设置的大一点，更多参数解释可以查看：https://zhuanlan.zhihu.com/p/655281268 和 https://zhuanlan.zhihu.com/p/639144223。目前，大语言模型呈爆发式的增长，其中，基于llama家族的模型占据了半壁江山。

2024-08-06 21:40:02 1662 1

原创 Transformer 理论与代码实践，一步一步详细剖析

在现在的大模型时代，核心还得是Transformer，Transformer是由谷歌于2017年提出，最初用于机器翻译的神经网络模型，在此衍生出了一系列的模型，BERT、T5、GPT、GLM、BLOOM、LLaMa等等从小模型到大模型都少不了他。Transformer最经典的模型结构图还得是论文中原汁原味的图关于这张图的讲解在其他的回答中有很多，简单总结下，左边是编码器(Encoder)，右边是解码器(Decoder)，N× 表示进行了 N 次堆叠。接下来分别对每个模块进行简述以及代码实现。

2024-08-06 21:35:12 1254

原创使用YOLOv8进行姿态估计（ONNX推理）

【代码】使用YOLOv8进行姿态估计（ONNX推理）

2024-08-02 19:22:57 428

原创 Huggingface的parquet数据转 json文件

【代码】Huggingface的parquet数据转 json文件。

2024-06-05 20:05:59 1396

原创将你的GGUF模型发布到Ollama社区

【代码】将你的GGUF模型发布到Ollama社区。

2024-05-13 09:45:48 314

原创使用Ollama从头构建Embedding和RAG系统

检索增强生成（RAG）赋予大型语言模型新的能力，使其能够与任何大小的文档或数据集进行互动。接下来，请跟随我一起了解如何解析和操作文档，探讨如何利用嵌入向量来描述抽象概念，实现一种简单而强大的方法，以找出文档中与特定查询最相关的部分，并最终构建一个脚本，使本地托管的大型语言模型能够处理您自己的文档。

2024-04-05 15:33:23 7047 1

原创【大语言模型】Ollama使用指北

Ollama 默认提供 OpenAI 的兼容 API，默认端口是 11434，默认模型名是 run 后面使用的模型名，如果想使用 OpenAI 的模型名，可以通过ollama cp的方式，为模型起一个临时的名称。

2024-02-26 20:34:22 5393 1

原创使用argparse参数化你的Python代码

【代码】使用argparse参数化你的Python代码。

2023-10-30 09:41:03 199

原创 arxiv.org搜索特定会议特定年份以及特定关键词的论文

【代码】arxiv.org搜索特定会议特定年份以及特定关键词的论文。

2023-10-21 19:41:43 448

原创 ArXiv论文上传与发表的问题解决记录

在使用Latex编辑论文参考文献部分时，一般在百度谷歌学术上只能够获取到BibTex格式（bib），而有些期刊会议需要提供BibItem格式（bbl）。根据查看到的资料，详细描述一种批量将bib格式文件转为bbl文件，而bbl文件中的内容即为BibItem格式。

2023-07-17 17:50:56 839

原创在具体领域中微调LLM模型的方案实施建议

大参数的模型比高精度的模型要好；模型的预训练虽然会付出极高的代价，但是效果也会提升比较明显；强化学习在一般的微调任务中很有必要加入；适当的在数据中引入历史对话可能有一定的提升效果；

2023-06-02 19:17:27 1577 1

YOLOv5微信小程序源代码（可根据任务自己定制修改）

YOLOv5小程序，界面好看，支持修改成YOLOv5, v6, v7, v8, v9, v10以及YOLOx等各系列YOLO模型，支持本地与云端部署。功能特色： 1. 拥有检测识别功能； 2. 拥有美观的界面设计，可以自定义样式，更多美好的界面由你解锁； 3. 方便的内容说明，针对不同场景可以选择进行检测图的演示和部分结果说明； 4. 支持云端部署，实测CPU服务器上模型可在1s内返回结果；高级版请通过访问【https://mbd.pub/o/bread/YpuTlptu】购买

2024-08-08

基于大模型的知识库问答源代码

基于大模型的知识库问答

2024-08-08

《GPT 学术优化 (GPT Academic)》源代码

为GPT/GLM等LLM大语言模型提供实用化交互接口，特别优化论文阅读/润色/写作体验，模块化设计，支持自定义快捷按钮&函数插件，支持Python和C++等项目剖析&自译解功能，PDF/LaTex论文翻译&总结功能，支持并行问询多种LLM模型，支持chatglm3等本地模型。接入通义千问, deepseekcoder, 讯飞星火, 文心一言, llama2, rwkv, claude2, moss等。

2024-08-08

针对任何任务微调特定 SAM 模型 - 代码

随着 Meta 上周发布的分段任意模型 (SAM)，计算机视觉迎来了它的 ChatGPT 时刻。 SAM 经过超过 110 亿个分割掩模的训练，是预测性 AI 用例而非生成式 AI 的基础模型。虽然它在分割广泛的图像模式和问题空间的能力方面表现出了令人难以置信的灵活性，但它在发布时没有“微调”功能。

2024-08-08

BestYOLO：以科研和竞赛为导向的最好的YOLO实践框架!

目前BestYOLO是一个完全基于YOLOv5 v7.0 进行改进的开源库，该库将始终秉持以落地应用为导向，以轻便化使用为宗旨，简化各种模块的改进。目前已经集成了基于torchvision.models 模型为Backbone的YOLOv5目标检测算法，同时也将逐渐开源更多YOLOv5应用程序。

2024-08-08

《CareGPT (关怀GPT)医疗大语言模型》

CareGPT (关怀GPT)是一个医疗大语言模型，同时它集合了数十个公开可用的医疗微调数据集和开放可用的医疗大语言模型，包含LLM的训练、测评、部署等以促进医疗LLM快速发展。Medical LLM, Open Source Driven for a Healthy Future.

2024-08-08

《ChatGenTitle：使用百万arXiv论文信息在LLaMA模型上进行微调的论文题目生成模型》源代码

ChatGenTitle：使用百万arXiv论文信息在LLaMA模型上进行微调的论文题目生成模型

2024-08-06

《XrayGLM：首个会看胸部X光片的中文多模态医学大模型》源代码

最近，通用领域的大语言模型 (LLM)，例如 ChatGPT，在遵循指令和产生类似人类响应方面取得了显著的成功，这种成功间接促进了多模态大模型的研究和发展，如通用领域的多模态大模型MiniGPT-4、mPLUG-Owl、Multimodal-GPT和LLaVA ，然而，此类多模态大模型却很少出现在医学领域的研究中，阻碍了相关研究发展。visual-med-alpaca虽然在医学多模态大模型方面做出了一些很有成效的工作，然而其数据为英文诊断报告，不利于促进中文领域医学多模态大模型的研究发展。为此，我们开发了XrayGLM以解决上述问题。XrayGLM在医学影像诊断和多轮交互对话上显示出了非凡的潜力。

2024-08-06

《基于Sentence-BERT训练自己的文本相似度模型》源代码

BERT和RoBERTa在文本语义相似度等句子对的回归任务上，已经达到了SOTA的结果。但是，它们都需要把两个句子同时喂到网络中，这样会导致巨大的计算开销。这种结构使得BERT不适合语义相似度搜索，同样也不适合无监督任务（例如：聚类）。Sentence-BERT(SBERT)网络利用孪生网络和三胞胎网络结构生成具有语义意义的句子embedding向量，语义相近的句子其embedding向量距离就比较近，从而可以用来进行相似度计算(余弦相似度、曼哈顿距离、欧式距离)。这样SBERT可以完成某些新的特定任务，例如相似度对比、聚类、基于语义的信息检索。

2024-08-06

《U-Net: 使用 PyTorch 进行语义分割》源代码

Unet是一个优秀的语义分割模型，其主要执行过程与其它语义分割模型类似。与CNN不同的之处在于CNN是图像级的分类，而unet是像素级的分类，其输出的是每个像素点的类别。Unet是一个优秀的语义分割模型，其主要执行过程与其它语义分割模型类似。与CNN不同的之处在于CNN是图像级的分类，而unet是像素级的分类，其输出的是每个像素点的类别。Unet是一个优秀的语义分割模型，其主要执行过程与其它语义分割模型类似。与CNN不同的之处在于CNN是图像级的分类，而unet是像素级的分类，其输出的是每个像素点的类别。Unet是一个优秀的语义分割模型，其主要执行过程与其它语义分割模型类似。与CNN不同的之处在于CNN是图像级的分类，而unet是像素级的分类，其输出的是每个像素点的类别。Unet是一个优秀的语义分割模型，其主要执行过程与其它语义分割模型类似。与CNN不同的之处在于CNN是图像级的分类，而unet是像素级的分类，其输出的是每个像素点的类别。

2024-08-06

机器学习/深度学习500问

机器学习/深度学习500问机器学习/深度学习500问机器学习/深度学习500问机器学习/深度学习500问机器学习/深度学习500问机器学习/深度学习500问机器学习/深度学习500问机器学习/深度学习500问机器学习/深度学习500问机器学习/深度学习500问机器学习/深度学习500问机器学习/深度学习500问机器学习/深度学习500问机器学习/深度学习500问机器学习/深度学习500问机器学习/深度学习500问机器学习/深度学习500问机器学习/深度学习500问机器学习/深度学习500问机器学习/深度学习500问机器学习/深度学习500问机器学习/深度学习500问机器学习/深度学习500问机器学习/深度学习500问机器学习/深度学习500问机器学习/深度学习500问机器学习/深度学习500问机器学习/深度学习500问机器学习/深度学习500问机器学习/深度学习500问机器学习/深度学习500问机器学习/深度学习500问机器学习/深度学习500问机器学习/深度学习500问机器学习/深度学习500问机器学习/深度学习500问机器学习/深度学习500问机器学习/深度学习500问机器学习/深

2023-03-27

高端上档次引导页HTML源码

高端上档次引导页源码高端上档次引导页源码高端上档次引导页源码高端上档次引导页源码高端上档次引导页源码高端上档次引导页源码高端上档次引导页源码高端上档次引导页源码高端上档次引导页源码高端上档次引导页源码高端上档次引导页源码高端上档次引导页源码高端上档次引导页源码高端上档次引导页源码高端上档次引导页源码高端上档次引导页源码高端上档次引导页源码高端上档次引导页源码高端上档次引导页源码高端上档次引导页源码高端上档次引导页源码高端上档次引导页源码高端上档次引导页源码高端上档次引导页源码高端上档次引导页源码高端上档次引导页源码高端上档次引导页源码高端上档次引导页源码高端上档次引导页源码高端上档次引导页源码高端上档次引导页源码高端上档次引导页源码高端上档次引导页源码高端上档次引导页源码高端上档次引导页源码高端上档次引导页源码高端上档次引导页源码高端上档次引导页源码高端上档次引导页源码高端上档次引导页源码高端上档次引导页源码高端上档次引导页源码高端上档次引导页源码高端上档次引导页源码高端上档次引导页源码高端上档次引导页源码高端上档次引导页源码高端上档次引导页源码高端上档次引导页源码高端上档次引导页源码

2023-03-27

机器学习、深度学习画图PPT模板

机器学习、深度学习画图PPT模板机器学习、深度学习画图PPT模板机器学习、深度学习画图PPT模板机器学习、深度学习画图PPT模板机器学习、深度学习画图PPT模板机器学习、深度学习画图PPT模板机器学习、深度学习画图PPT模板机器学习、深度学习画图PPT模板机器学习、深度学习画图PPT模板机器学习、深度学习画图PPT模板机器学习、深度学习画图PPT模板机器学习、深度学习画图PPT模板机器学习、深度学习画图PPT模板机器学习、深度学习画图PPT模板机器学习、深度学习画图PPT模板机器学习、深度学习画图PPT模板机器学习、深度学习画图PPT模板机器学习、深度学习画图PPT模板机器学习、深度学习画图PPT模板机器学习、深度学习画图PPT模板机器学习、深度学习画图PPT模板机器学习、深度学习画图PPT模板机器学习、深度学习画图PPT模板机器学习、深度学习画图PPT模板机器学习、深度学习画图PPT模板机器学习、深度学习画图PPT模板机器学习、深度学习画图PPT模板机器学习、深度学习画图PPT模板机器学习、深度学习画图PPT模板机器学习、深度学习画图PPT模板机器学习、深度学习画图PPT模板

2023-03-27

目标检测跌倒检测数据集

跌倒检测数据集，可用于目标检测模型训练，支持VOC，COCO，YOLO等各种数据格式转化。百度网盘链接，永久不失效。跌倒检测数据集，可用于目标检测模型训练，支持VOC，COCO，YOLO等各种数据格式转化。百度网盘链接，永久不失效。跌倒检测数据集，可用于目标检测模型训练，支持VOC，COCO，YOLO等各种数据格式转化。百度网盘链接，永久不失效。跌倒检测数据集，可用于目标检测模型训练，支持VOC，COCO，YOLO等各种数据格式转化。百度网盘链接，永久不失效。跌倒检测数据集，可用于目标检测模型训练，支持VOC，COCO，YOLO等各种数据格式转化。百度网盘链接，永久不失效。跌倒检测数据集，可用于目标检测模型训练，支持VOC，COCO，YOLO等各种数据格式转化。百度网盘链接，永久不失效。跌倒检测数据集，可用于目标检测模型训练，支持VOC，COCO，YOLO等各种数据格式转化。百度网盘链接，永久不失效。跌倒检测数据集，可用于目标检测模型训练，支持VOC，COCO，YOLO等各种数据格式转化。百度网盘链接，永久不失效。跌倒检测数据集，可用于目标检测模型训练，支持VOC，COCO，YOLO等

2022-11-13

十种林业害虫数据集，采取VOC格式标注，可用于目标前检测模型训练

压缩包提供下载的百度网盘链接，请放心购买，永久不失效。该数据集为自采集数据集，包含的数据类别：10类（丝带凤蝶、人纹污灯蛾、松墨天牛、日本脊吉丁、杨小舟蛾、杨扇舟蛾、柳蓝叶甲、桑天牛、褐边绿刺蛾、黄刺蛾），数据量：2262张，其中标注格式为VOC格式，可用于RCNN、YOLOv1-YOLOv7等各种目标检测模型训练。该数据集为自采集数据集，包含的数据类别：10类（丝带凤蝶、人纹污灯蛾、松墨天牛、日本脊吉丁、杨小舟蛾、杨扇舟蛾、柳蓝叶甲、桑天牛、褐边绿刺蛾、黄刺蛾），数据量：2262张，其中标注格式为VOC格式，可用于RCNN、YOLOv1-YOLOv7等各种目标检测模型训练。该数据集为自采集数据集，包含的数据类别：10类（丝带凤蝶、人纹污灯蛾、松墨天牛、日本脊吉丁、杨小舟蛾、杨扇舟蛾、柳蓝叶甲、桑天牛、褐边绿刺蛾、黄刺蛾），数据量：2262张，其中标注格式为VOC格式，可用于RCNN、YOLOv1-YOLOv7等各种目标检测模型训练。

2022-07-13

动态透明调调的交互式个人主页HTML源码

效果请查看：https://mianbaoduo.com/o/bread/mbd-YpqZlpZy 效果请查看：https://mianbaoduo.com/o/bread/mbd-YpqZlpZy 效果请查看：https://mianbaoduo.com/o/bread/mbd-YpqZlpZy 效果请查看：https://mianbaoduo.com/o/bread/mbd-YpqZlpZy 效果请查看：https://mianbaoduo.com/o/bread/mbd-YpqZlpZy 效果请查看：https://mianbaoduo.com/o/bread/mbd-YpqZlpZy 效果请查看：https://mianbaoduo.com/o/bread/mbd-YpqZlpZy 效果请查看：https://mianbaoduo.com/o/bread/mbd-YpqZlpZy 效果请查看：https://mianbaoduo.com/o/bread/mbd-YpqZlpZy

2022-07-13

基于百度EasyDL图像分类的通用微信小程序

百度EasyDL是零门槛AI开发平台，提供从数据采集、标注、清洗到模型训练、部署的一站式AI开发能力。对于各行各业有定制AI需求的企业用户来说，无论您是否具备AI基础，EasyDL设计简约，极易理解，最快5分钟即可上手学会，15分钟完成模型训练。本资源提供了将自己的图像分类任务训练并且通过公有云部署以后使用微信小程序部署给用户使用，使用简单，通过修改您训练的模型的AK和SK即可对接入该小程序，同时该小程序更可以在您的开发下拓展百度EasyDL的目标检测，图像分类等各种任务需求。

2022-07-13

手工采集的斑马线与人行道标注数据集，可用于YOLOv5等目标检测任务的训练

压缩包内提供百度网盘下载链接，永不失效。该数据集为自采集数据，包含训练集及验证集3880张，测试集1770张。标签为人行道和斑马线两种标签，目前支持XML与YOLO格式的目标检测网络训练。可用于道路安全、行人礼让等任务探索。该数据集为自采集数据，包含训练集及验证集3880张，测试集1770张。标签为人行道和斑马线两种标签，目前支持XML与YOLO格式的目标检测网络训练。可用于道路安全、行人礼让等任务探索。该数据集为自采集数据，包含训练集及验证集3880张，测试集1770张。标签为人行道和斑马线两种标签，目前支持XML与YOLO格式的目标检测网络训练。可用于道路安全、行人礼让等任务探索。

2022-07-13

可用于深度学习或者图像处理研究的农作物病虫害数据集

压缩包内提供百度网盘下载链接，永不过期！该数据集包含了水稻、玉米、小麦、甜菜、苜蓿、葡萄、柑橘、芒果共8种作物的75000 多幅图像。前五种作物为大田作物（FC， field crops），后三种为经济作物（EC，economic crops）。该数据集可以用于深度学习与农作物方面图像处理研究。该数据集包含了水稻、玉米、小麦、甜菜、苜蓿、葡萄、柑橘、芒果共8种作物的75000 多幅图像。前五种作物为大田作物（FC， field crops），后三种为经济作物（EC，economic crops）。该数据集可以用于深度学习与农作物方面图像处理研究。该数据集包含了水稻、玉米、小麦、甜菜、苜蓿、葡萄、柑橘、芒果共8种作物的75000 多幅图像。前五种作物为大田作物（FC， field crops），后三种为经济作物（EC，economic crops）。该数据集可以用于深度学习与农作物方面图像处理研究。

2022-07-13

YOLOv5快速训练助手

YOLOv5自诞生发展到现在的version6.1版本，一直被官方应用在工农商学各个行业中，但是每次出于数据制作的麻烦总是不可避免，本工具为个人亲手所写，是市面上第一个YOLOv5的数据集制作助手，它能在1分钟之内完成满足YOLOv5训练的数据集模式。除了笔者已开发的功能，还支持二次开发创作。 YOLOv5自诞生发展到现在的version6.1版本，一直被官方应用在工农商学各个行业中，但是每次出于数据制作的麻烦总是不可避免，本工具为个人亲手所写，是市面上第一个YOLOv5的数据集制作助手，它能在1分钟之内完成满足YOLOv5训练的数据集模式。除了笔者已开发的功能，还支持二次开发创作。 YOLOv5自诞生发展到现在的version6.1版本，一直被官方应用在工农商学各个行业中，但是每次出于数据制作的麻烦总是不可避免，本工具为个人亲手所写，是市面上第一个YOLOv5的数据集制作助手，它能在1分钟之内完成满足YOLOv5训练的数据集模式。除了笔者已开发的功能，还支持二次开发创作。

2022-06-08

可用于深度学习训练的烟雾火灾数据集

自采集和搜集整理的烟雾和火灾数据集，数据集包括2w+图片，所有图片均采用VOC格式进行标注，标注的数据的类别有烟雾和火焰两种，比赛、毕设不可错过的必要数据集。提供的下载方式为百度网盘，下载文件中有下载的链接地址，请放心下载。自采集和搜集整理的烟雾和火灾数据集，数据集包括2w+图片，所有图片均采用VOC格式进行标注，标注的数据的类别有烟雾和火焰两种，比赛、毕设不可错过的必要数据集。自采集和搜集整理的烟雾和火灾数据集，数据集包括2w+图片，所有图片均采用VOC格式进行标注，标注的数据的类别有烟雾和火焰两种，比赛、毕设不可错过的必要数据集。自采集和搜集整理的烟雾和火灾数据集，数据集包括2w+图片，所有图片均采用VOC格式进行标注，标注的数据的类别有烟雾和火焰两种，比赛、毕设不可错过的必要数据集。自采集和搜集整理的烟雾和火灾数据集，数据集包括2w+图片，所有图片均采用VOC格式进行标注，标注的数据的类别有烟雾和火焰两种，比赛、毕设不可错过的必要数据集。

2022-06-02

Labelimg中文版

官方的labelimg是英文版的界面，我这里通过修改字体包，将界面修改成了中文版，大家可以下载直接使用，再也不用担心英文的困扰了！LabelImg 是一个可视化的图像标定工具。Faster R-CNN，YOLO，SSD等目标检测网络所需要的数据集，均需要借此工具标定图像中的目标。生成的 XML 文件是遵循 PASCAL VOC 的格式的。官方的labelimg是英文版的界面，我这里通过修改字体包，将界面修改成了中文版，大家可以下载直接使用，再也不用担心英文的困扰了！LabelImg 是一个可视化的图像标定工具。Faster R-CNN，YOLO，SSD等目标检测网络所需要的数据集，均需要借此工具标定图像中的目标。生成的 XML 文件是遵循 PASCAL VOC 的格式的。官方的labelimg是英文版的界面，我这里通过修改字体包，将界面修改成了中文版，大家可以下载直接使用，再也不用担心英文的困扰了！LabelImg 是一个可视化的图像标定工具。Faster R-CNN，YOLO，SSD等目标检测网络所需要的数据集，均需要借此工具标定图像中的目标。生成的 XML 文件是遵循 PASC

2022-05-19

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人