sunny*&*-优快云博客

原创机器学习课程及深度学习框架开发教程文档整理

keras中文文档Tensorflow中文文档Pytorch: pytorch123教程中文教程&文档主页

2020-11-04 14:09:35 131

原创 MongDB数据库安装及MongoRestore数据恢复（详细教程）

MongoRestore（首次使用，先配置MongoRestore.exe工具启动目录，即安装目录bin下的路径）,选择要恢复的文件路径。在 MongoDB Shell 中使用以下命令创建管理员用户。管理员用户将拥有对数据库的所有权限。copy工具包bin文件夹下的所有文件，放在mongodb安装目录下的bin文件夹下。本地安装的mongodb，地址端口为localhost:27017。安装目录下bin\mondo.exe ,双击启动。右键新建数据库test，test库右键，

2024-12-25 10:55:26 667

原创计算机的前沿技术网站

这些网站覆盖了计算机科学的各个方面，从最新的研究成果到实际应用案例，都是了解前沿技术的宝库。此外，Stack Overflow也是了解计算机前沿技术的绝佳窗口，许多最新的编程概念和技术实践，都会在这个平台上被讨论和分享。作为一个开放的平台，GitHub鼓励用户贡献代码、提交问题以及参与讨论，这种互动模式极大地促进了知识的共享和技术的迭代更新。文章涵盖了最新的科技动态、行业趋势、技术分析以及具体的实现方法，很适合对计算机前沿技术保持持续关注的读者。高质量的内容和深入的分析是这个平台的标志特色。

2024-10-29 11:31:52 1083

转载目标检测之SSD原理与实现

前言目标检测近年来已经取得了很重要的进展，主流的算法主要分为两个类型（参考RefineDet）：（1）two-stage方法，如R-CNN系算法，其主要思路是先通过启发式方法（selective search）或者CNN网络（RPN)产生一系列稀疏的候选框，然后对这些候选框进行分类与回归，two-stage方法的优势是准确度高；（2）one-stage方法，如Yolo和SSD，其主要思路是均匀地在图片的不同位置进行密集抽样，抽样时可以采用不同尺度和长宽比，然后利用CNN提取特征后直接进行分类与回归，整个过

2022-02-09 11:19:35 1115

转载 FPN特征金字塔网络-----解决目标检测多尺度问题

《Feature Pyramid Networks for Object Detection》这篇论文主要解决的问题是目标检测在处理多尺度变化问题是的不足，现在的很多网络都使用了利用单个高层特征(比如说Faster R-CNN利用下采样四倍的卷积层——Conv4，进行后续的物体的分类和bounding box的回归)，但是这样做有一个明显的缺陷，即小物体本身具有的像素信息较少，在下采样的过程中极易被丢失，为了处理这种物体大小差异十分明显的检测问题，经典的方法是利用图像金字塔的方式进行多尺度变化增强，但这样会

2021-12-09 10:38:03 1772

转载 ubuntu系统查看文件内容

一:纯文本的查看1.直接查看文件的内容：cat：从第一行显示cat 文件名tac：从最后一行显示tac 文件名nl：显示的时候，同时输出行号nl 文件名2.可翻页查看文件内容：more：可一页一页翻看more 文件名less：与more相同，但是可以倒着向前翻页less 文件名3.文件内容的读取：head：只看前面几行head -n number 文件（默认是10行，想改变数量就改变number的数值）tail：只看后面几行tail -n number 文件（

2021-10-14 08:55:47 4300

原创 linux 新添加的硬盘格式化并挂载到目录下

需求: 新增加一块硬盘sdb，将sdb分区，只分一个区，格式化，挂载到目录/ssd下。1、查看现在已有的分区状态# df –l图中显示，没有看到sdb硬盘2、查看服务器安装的硬盘状态（包括格式化和未格式化）fdisk –l图中显示，有sdb硬盘，但是没有分区。3、添加新分区# fdisk /dev/sdb按照以下红框输入N 回车P 回车1 回车两次回车W 回车用以下命令查看分区fdisk –l图中红框显示已多出了一个分区，但是还没有格式化。4、格式化分区

2021-09-03 09:57:23 1489

转载 python多线程低效问题

重点：Python由于有全锁局的存在（同一时间只能有一个线程执行），并不能利用多核优势终于找到cpu利用率低的原因了Python解释执行原理：我是一个Python线程，我的工作就是解释执行程序员编写的Python代码。之所以说是解释执行，是因为Python是高级语言，CPU那家伙不认识Python代码，需要运行的时候动态翻译成CPU指令。我把Python源代码经过“编译”以后，变成了一个个的字节码文件：.pyc，这是一个二进制的文件，人类是看不懂的，只有我才能看懂。然后我的工作就简单了，不断的取

2021-08-03 11:06:39 1302

原创 samba实现linux向windows共享文件

首先需要安装 samba，sudo apt-get install samba。Samba是在Linux和UNIX系统上实现SMB协议的一个免费软件，由服务器及客户端程序构成。SMB（Server Messages Block，信息服务块）是一种在局域网上共享文件和打印机的一种通信协议。接着你需要新建一个能够获取共享文件的账户和密码，使用命令：smbpasswd -a lyrichu新建一个名为 lyrichu 的共享账户，然后输入密码即可。这里共享账户的名字可以任意取。然后建立共享文件的

2021-08-03 10:25:45 255

转载 gunicorn部署flask项目

1、WSGI协议Web框架致力于如何生成HTML代码，而Web服务器用于处理和响应HTTP请求。Web框架和Web服务器之间的通信，需要一套双方都遵守的接口协议。WSGI协议就是用来统一这两者的接口的。2、WSGI容器常用的WSGI容器有Gunicorn和uWSGI，但Gunicorn直接用命令启动，不需要编写配置文件，相对uWSGI要容易很多，所以这里我也选择用Gunicorn作为容器。3、gunicorn介绍gunicorn是一个python Wsgi http server，只支持在Unix

2021-07-09 17:32:43 185

转载 flask 多进程/多线程解决高并发问题

1、简介：Flask 默认是单进程，单线程阻塞的任务模式，在项目上线的时候可以通过nginx+gunicorn 的方式部署flask任务。app.run()中可以接受两个参数，分别是threaded和processes，用于开启线程支持和进程支持。1.threaded : 多线程支持，默认为False，即不开启多线程;2.processes：进程数量，默认为1.开启方式：if __name__ == '__main__': app.run(threaded=True) # app.run(p

2021-07-09 17:25:57 37118 3

转载哈希算法之pHash算法

1.pHash算法pHash中文叫感知哈希算法，通过离散余弦变换(DCT)降低图片频率，相比aHash有更好鲁棒性。基本原理：（1）缩小尺寸。将图片缩小为32*32大小。（2）灰度化处理。（3）计算DCT，并选取左上角8*8的矩阵。DCT是一种特殊的傅立叶变换，将图片从像素域变换为频率域，并且DCT矩阵从左上角到右下角代表越来越高频率的系数，但是除左上角外，其他地方的系数为0或接近0，因此只保留左上角的低频区域。（4）计算DCT均值。（5）哈希值计算。将每个DCT值，与平均值进行比较。大于或

2021-07-07 17:50:01 5124

转载哈希算法之dHash算法

1.dHash算法dHash中文叫差异哈希算法，在对图片进行哈希转换时，通过左右两个像素大小的比较，得到最终哈希序列。基本原理：（1）缩小尺寸。将图片缩小为9*8大小，此时照片有72个像素点。（2）灰度化处理。（3）计算差异值，获得最后哈希值（与aHash主要区别处）。比较每行左右两个像素，如果左边的像素比右边的更亮（左边像素值大于右边像素值），则记录为1，否则为0。因为每行有9个像素，左右两个依次比较可得出8个值，所以8行像素共可以得出64个值，因此此时哈希值为长度是64的0-1序列。（4）

2021-07-07 17:37:18 2617

转载哈希算法之aHash算法

aHash、pHash、dHash是常用的图像相似度识别算法，原理简单，实现方便，个人把这三个算法作为学习图片相似度识别的入门算法。本次起，从aHash开始，对三个算法的基本原理和实践代码进行梳理。aHash算法Hash算法进行图片相似度识别的本质，就是将图片进行Hash转化，生成一组二进制数字，然后通过比较不同图片的Hash值距离找出相似图片。aHash中文叫平均哈希算法，顾名思义，在进行转化过程中将用到像素均值。1.基本原理：（1）缩小尺寸。这样做会去除图片的细节，只保留结构、明暗等基本信息，

2021-07-07 17:31:22 1573

转载大规模图像检索的深度哈希方法简介

传统的图像检索过程，先通过人工对图像进行文字标注，再利用关键字来检索图像，这种依据图像描述的字符匹配程度提供检索结果的方法，称为“以字找图”(text-based image retrieval)，既耗时又主观多义。如今每一秒都有数百万图片通过各种渠道上传到各种大规模存储设备中。给定一张查询图片，快速从百万量级的图像数据库中通过图像特征来找出内容相近的一定数量的图片，这种任务被称为“基于内容的图像检索”(content-based image retrieval (CBIR))，是目前非常流行的研究方向。

2021-07-07 17:09:15 3785

转载搭建以图搜图检索系统

引言当您听到“以图搜图”时，是否首先想到了百度、Google 等搜索引擎的以图搜图功能呢？事实上，您完全可以搭建一个属于自己的以图搜图系统：自己建立图片库；自己选择一张图片到库中进行搜索，并得到与其相似的若干图片。Milvus 作为一款针对海量特征向量的相似性检索引擎，旨在助力分析日益庞大的非结构化数据，挖掘其背后蕴含的巨大价值。为了让 Milvus 能够应用于相似图片检索的场景，我们基于 Milvus 和图片特征提取模型 VGG 设计了一个以图搜图系统。正文分为数据准备、系统概览、 VGG 模型、A

2021-07-07 15:22:42 2312

转载基于内容的图像检索

图像搜索引擎一般有三种实现方式：（1）Search By Metadata，这种方式不会考虑图片本身内容（图片包含物体，以及图像像素分布等），纯粹根据图像标签来进行检索。如果某个网页中有一张赛马的图片，并且网页文本内容中包含“赛马”（或者相关词汇）的文字，当用户搜索“赛马”、“马”、“horse”等关键字时，搜索引擎就会把这张图当作检索结果返回给用户。换句话说，此时的图像搜索引擎干的事情跟普通搜索引擎差不多，匹配关键词，并将对应图片返回给用户。这种工作方式的优点是速度快，在普通搜索引擎的技术基础之上很容.

2021-07-07 14:58:49 1309

转载 Python Web项目(Python3.6.9+Django2.0)

一、前言Django 是一个开放源代码的 Web 应用框架，由 Python 写成。采用了 MTV 的框架模式，即模型 M，模板 T 和视图 V。当然，网上也有人说 Django 采用了 MVC 的软件设计模式，即模型 M，视图 V 和控制器 C。由于我也是刚开始接触 Python Web，不好给大家解释其中的区别，给大家推荐一片文章：浅谈 MVC、MTV 和 MVVM理解 django 框架中的 MTV 与 MVC 模式文章中有作者对 MVVM 的理解，随便看看就行了，虽然很重要但是现在我们还不需

2021-06-08 16:56:25 902

原创 django-admin startproject 报错：Cannot find installed version of python-django or python3-django.

ubuntu18.04 python3.6.4 Django 2.0创建Django工程：django-admin startproject myweb报错：Cannot find installed version of python-django or python3-django.按照提示执行：sudo apt install python-django-common安装好后，重新执行：django-admin startproject myweb报新错：解决办法：sud

2021-06-08 16:16:09 553 1

转载 python jieba -----中文分词库

一、jieba库基本介绍(1)、jieba库概述 jieba是优秀的中文分词第三方库 - 中文文本需要通过分词获得单个的词语 - jieba是优秀的中文分词第三方库，需要额外安装 - jieba库提供三种分词模式，最简单只需掌握一个函数(2)、jieba分词的原理 Jieba分词依靠中文词库 - 利用一个中文词库，确定汉字之间的关联概率 - 汉字间概率大的组成词组，形成分词结果 - 除了分词，用户还可以添加自定义的

2021-05-24 17:19:23 868

转载 python 中文编码问题字符前面加‘u‘ u‘ ‘

中文编码问题是用中文的程序员经常头大的问题，在python下也是如此，那么应该怎么理解和解决python的编码问题呢？我们要知道python内部使用的是unicode编码，而外部却要面对千奇百怪的各种编码，比如作为中国程序经常要面对的gbk，gb2312，utf8等，那这些编码是怎么转换成内部的unicode呢？首先我们先看一下源代码文件中使用字符串的情况。源代码文件作为文本文件就必然是以某种编码形式存储代码的，python默认会认为源代码文件是asci编码，比如说代码中有一个变量赋值：s1=’a’

2021-05-24 10:47:27 733

转载 linux上传文件到百度云盘

最近考虑linux数据备份的问题，最中选用了 bypy方式。下边简单的总结一下如何使用 bypy 实现百度网盘数据的同步。bypy是一个百度云的 Python 客户端，其主要目的和功能，就是为 Linux 使用者提供一种在命令行下，使用百度云盘存储空间的方法。它提供文件列表、下载、上传、比较、向上同步、向下同步，等操作。系统环境：Linux 系统 + Python 2.7安装软件工具：pip install requestspip install bypy授权登陆：执行bypy inf

2021-05-21 16:24:22 1060

转载 numba加速python代码

前言说道现在最流行的语言，就不得不提python。可是python虽然容易上手，但速度却有点感人。如何用简单的方法让python加速到近乎可以媲美C的速度呢？今天来就来谈谈numba这个宝贝。对你没看错，不是numpy，就是numba。目录1、用函数编程2、Numba的优势3、如何使用numba 4、只用1行代码即可加速，对loop有奇效 5、兼容常用的科学计算包，可以创建ufunc 6、会自动调整精度，保证准确性7、拓展 8、更多numba的加速选项 9、Numba的精度问

2021-05-10 11:01:30 656

转载脱机手写中文文本行识别系统——软件设计方案

转载自https://www.cnblogs.com/yaojinsong/p/14203601.html通过高级软件工程课，我学习到了软件工程分析的方法。本文将对工程实践使用软件工程方法进行分析，进行软件系统分析和设计，最终形成软件系统概念原型。我的工程实践选题是基于深度学习的脱机手写中文文本行识别系统。脱机手写中文文本行识别是指，将手写体的中文纸质文档通过扫描或拍照的方式转化为数字图像，并进一步对该图像中的中文文本行进行识别。目前，随着以 CNN 为代表的一系列深度学习模型的出现, 手写单字符中文识

2021-04-27 09:43:24 879

转载常用推荐算法

在推荐系统简介中，我们给出了推荐系统的一般框架。很明显，推荐方法是整个推荐系统中最核心、最关键的部分，很大程度上决定了推荐系统性能的优劣。目前，主要的推荐方法包括：基于内容推荐、协同过滤推荐、基于关联规则推荐、基于效用推荐、基于知识推荐和组合推荐。一、基于内容推荐基于内容的推荐（Content-based Recommendation）是信息过滤技术的延续与发展，它是建立在项目的内容信息上作出推荐的，而不需要依据用户对项目的评价意见，更多地需要用机器学习的方法从关于内容的特征描述的事例中得到用

2021-04-01 11:09:33 781

转载推荐算法——冷启动问题

转自作者：iwtbs链接：https://www.zhihu.com/question/19843390/answer/1671468403来源：知乎著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。冷启动一般分为三类，用户冷启动、物品冷启动还有系统冷启动。之所以叫冷启，就是因为没有太多数据和特征来训练模型，所以往往要用一些不同的方法来达到目的。这个目的不只是提高点击等消费指标，更深层的可能会极大的带动业务增长，提升产品的天花板。冷启有必要花时间做么在最近深入做项目之前

2021-03-30 15:21:06 1653

转载推荐算法——潜在因子（LatentFactor）算法

文章转自：作者：知乎用户链接：https://www.zhihu.com/question/26743347/answer/34714804潜在因子（LatentFactor）算法。这种算法是在NetFlix（没错，就是用大数据捧火《纸牌屋》的那家公司）的推荐算法竞赛中获奖的算法，最早被应用于电影推荐中。这种算法在实际应用中比现在排名第一的 @邰原朗所介绍的算法误差（RMSE）会小不少，效率更高。我下面仅利用基础的矩阵知识来介绍下这种算法。这种算法的思想是这样：每个用户（user）都有自己的偏好，

2021-03-30 15:06:52 1455

转载 Keras中导入数据的方法，包括快速导入大规模的自制数据集

在对Keras框架的学习中，一个很大的难点就是数据的导入，尤其是当数据不能一次放入内存的时候，应该如何导入的问题。在Keras的官网，没有章节特意讲这个内容，而专门去找资料，也很难找到相关的内容。绝大多数的教程都是直接使用的Keras自带的数据集。为了处理大量数据的情况，我还特意研究了Python的多线程。后来我还知道了导入数据的时候的随机性的重要性等各种问题。这篇文章算是一个总结。详细内容参见链接：https://www.jianshu.com/p/0fbe5b5d0ab8来源：简书...

2021-03-26 16:15:09 5377

转载 Keras预训练模型下载及迁移学习

Keras 预训练模型简介在 Keras 中，包含有一个辅助应用模块 keras.applications，其提供了带有预训练权重的 Keras 模型。你可以直接使用这些模型，或者像本文一样对模型进行改造后完成迁移学习。计算机视觉领域，有 3 个最著名的比赛，分别是：ImageNet ILSVRC，PASCAL VOC 和微软 COCO 图像识别大赛。其中，Keras 中的模型大多是以 ImageNet 提供的数据集进行权重训练。目前，Keras 包含有 5 个预训练模型，分别为：Xception，V

2021-02-18 16:35:13 2032

转载深度学习 Fine-tune 技巧

深度学习中需要大量的数据和计算资源（乞丐版都需要12G显存的GPU - -）且需花费大量时间来训练模型，但在实际中难以满足这些需求，而使用迁移学习则能有效降低数据量、计算量和计算时间，并能定制在新场景的业务需求，可谓一大利器。迁移学习不是一种算法而是一种机器学习思想，应用到深度学习就是微调（Fine-tune)。通过修改预训练网络模型结构（如修改样本类别输出个数），选择性载入预训练网络模型权重（通常是载入除最后的全连接层的之前所有层，也叫瓶颈层）再用自己的数据集重新训练模型就是微调的基本步骤。微调

2021-02-18 14:15:56 1061

转载机器学习：数据预处理之独热编码（One-Hot）

在机器学习算法中，我们经常会遇到分类特征，例如：人的性别有男女，祖国有中国，美国，法国等。这些特征值并不是连续的，而是离散的，无序的。通常我们需要对其进行特征数字化。那什么是特征数字化呢？例子如下：性别特征：[“男”，“女”]祖国特征：[“中国”，"美国，“法国”]运动特征：[“足球”，“篮球”，“羽毛球”，“乒乓球”]假如某个样本（某个人），他的特征是这样的[“男”,“中国”,“乒乓球”]，我们可以用 [0,0,4] 来表示，但是这样的特征处理并不能直接放入机器学习算法中。因为类别之间是无序的

2021-02-05 10:06:53 522

转载 loss 之binary和categorical crossentropy的区别

1、binary_crossentropy交叉熵损失函数，一般用于二分类：也可以用于多分类问题，通常需要在网络的最后一层添加sigmoid进行配合使用，其期望输出值（target）需要进行one hot编码2.categorical_crossentropy分类交叉熵函数，适用于多分类问题，并使用softmax作为输出层的激活函数的情况：...

2020-12-04 16:42:41 2130

原创 Python错误提示：[Errno 24] Too many open files的分析与解决

背景在训练中文手写文字识别的项目中发现了一个错误，在执行多线程dataload的时候出现下面这个错误OSError: [Errno 24] Too many open filesRuntimeError: DataLoader worker (pid 15160) exited unexpectedly with exit code 1. Details are lost due to multiprocessing. Rerunning with num_workers=0 may give be

2020-12-04 09:46:58 15294 12

转载 ubuntu “Argument list too long”解决方法

1. 背景Linux下使用cp，mv，rm等命令时经常会碰到“Argument list too long”错误，这主要是因为这些命令的参数太长，即文件个数过多。2. 解决方案“Argument list too long”这个问题的解决主要会用到两个命令，find和xargs。**2.1 问题：**要删除test文件夹下以jpg结尾的文件。命令1为：find test/ -name "*.jpg" | xargs -i rm {}命令2为：find test/ -name "*.jp

2020-12-02 11:05:28 1148

原创数据集中训练数据集和测试数据集特征同分布

用标准数据来训练，但是在真实的测试过程中，输入数据的并不会是标准数据，导致了训练与测试的两个过程中数据分布的不一致。首先要说，训练集合与测试集合的分布完全一样，这个不太现实，因为相对于有限的训练集，测试集合理论上趋于无限大，所以无法穷尽。然而我们也不能为了单单去拟合我们手里的测试集而调整模型。那么要了解业务场景，要知道你的产品需要到哪些场景中，人为的分析数据源，这样收集到的数据可能会更好。这里假定你有个识别人脸的应用，你的数据集是来自某知名人脸数据库（简称原数据库），10w张左右，图片清晰标注明确。而

2020-11-09 17:14:12 2369

空空如也

空空如也