allen wy-优快云博客

原创混肴矩阵之精度、召回等评估指标代码实现

【代码】混肴矩阵之精度、召回等评估指标代码实现。

2022-11-02 15:19:15 374

原创 NLP之NLTK、spacy、jieba(中文)的使用

【代码】NLP之NLTK的使用。

2022-09-19 21:00:52 2472

(原因：通过卷积层后是线性相关的，分布杂乱，使用BN归一化后把哪些偏离的离谱的分布给弄到均值为0方差为1的标准分布，这样训练的会很快，但是在BN后，感觉把数值分布强制在了非线性函数的线性区域中。于是用到了BN里面的另外两个参数γ和β，把数值进行缩放和偏移放在非线性区域)通过BN归一化里面的γ缩放系数 +稀疏化的L1范数，可以理解为通过γ系数得到特征图比重大小，然后加上L1范数，进行稀疏化，把重要的值放大，不重要的值弄小。从图中可以看出L1的导数即梯度是（-1，1）有稀疏性质。

2022-09-17 14:36:23 1308

原创 “Uncaught ReferenceError: $ is not defined“

在 $ 上一行加了一个东西后不报错，不加报错。

2022-09-01 15:36:02 212

原创深度学习cv之语义分割

一、上采样1.repeat 按行列复制填充2. Resize，如双线性插值直接缩放，类似于图像缩放2.1 线性插值2.2 双线性插值双线性插值核心思想：是在两个方向分别进行一次线性插值。假设我们已知函数 f 在 Q11 = (x1, y1)、Q12 = (x1, y2), Q21 = (x2, y1) 以及 Q22 = (x2, y2) 四个点的值，求函数 f 在点 P = (x, y) 的值3. Deconvolution，也叫 Transposed C..

2022-05-27 11:16:39 313 2

原创 BCELoss RuntimeError: Boolean value of Tensor with more than one value is ambiguous

loss = nn.BCEWithLogitsLoss(masks_pred,true_masks)于是就报错上面的错 RuntimeError: Boolean value of Tensor with more than one value is ambiguous原因格式写错了解决方案loss = nn.BCELoss()(masks_pred,true_masks）

2022-05-12 11:26:00 1735 1

原创 GBDT梯度提升决策树

一、GBDT梯度提升决策树的概念GBDT算法是是有boosting思想和决策树组成的，是一个由多个弱学习器组成的集成学习。GBDT算法的每一个弱学习器模型的建立是为了消除上一次的残差(使用函数空间梯度下降的方法)注意：残差是通过损失的出来的，学习率shrinkage 得用二、GBDT应用于回归(残差、负梯度、回归树)1、回归树2、每棵树训练的真实值是负梯度(残差)3、GBDT应用于回归问题的总体流程4、GBDT应用于回归问题总结三、应用G...

2022-04-17 17:53:53 1250

原创 Attention注意力机制

一、概念深度学习中的注意力机制从本质上讲和人类的选择性视觉注意力机制类似，核心目标也是从众多信息中选择出对当前任务目标更关键的信息。二、Encoder-Decoder 框架引入Attention注意力机制的结构图ENcoder-Decoder参考Encoder-Decoder 框架_宠乖仪的博客-优快云博客生成的目标如下推广：yi = f1(Ci,y1,y2,y3,...,yi-1)，一般的做法中，Ci对构成元素加权求和，即下列公式：其中，Lx 代表

2022-03-26 17:01:42 1246

原创 Encoder-Decoder 框架

一、Encoder-Decoder 框架的结构Encoder-Decoder 框架可以看作是一种深度学习领域的研究模式，应用场景异常广泛。下图是文本处理领域里常用的 Encoder-Decoder 框架最抽象的一种表示。令：注意：Source和Target可以是同一种语言也可以是不同种语言Encoder 就是对输入句子 Source 进行编码，将输入句子通过非线性变换转化为中间语义表示 C：对于解码器 Decoder 来说，其任务是根据句子 Source 的中

2022-03-26 15:02:24 5077

原创机器学习之贝叶斯分类算法(nlp)

一、贝叶斯公式条件概率由上式进一步推导由此，推广到随机变量的范畴，设 X，Y 为两个随机变量，得到贝叶斯公式：二、朴素贝叶斯算法的优缺点1、朴素贝叶斯优点：算法逻辑简单,易于实现（算法思路很简单，只要使用贝叶斯公式转化即可！）分类过程中时空开销小（假设特征相互独立，只会涉及到二维存储） 2、朴素贝叶斯缺点：理论上，朴素贝叶斯模型与其他分类方法相比具有最小的误差率。但是实际上并非总是如此，这是因为朴素贝叶斯模型假设属性之间相互独立，这个假设在实际.

2022-03-24 18:17:32 2346

原创 HMM算法

一、马尔科夫链（Markov chain）1、概念当前状态只跟上一状态有关，跟上上或上上之前的状态无关。这种顺次演变的随机过程，就叫做马尔科夫链2、贝叶斯网络贝叶斯网络(Bayesian network)，又称信念网络(Belief Network)，或有向无环图模型，是一种概率图模型，其网络拓朴结构是一个有向无环图(DAG)3、有向图模型（贝叶斯网络）：用有向图表示变量间的依赖关系；二、HMM模型(隐含马尔可夫模型)HMM 就是贝叶斯网络的一种，就是最简单.

2022-03-24 18:16:06 2086

原创统计语言模型与 NLP 算法设计

一、统计语言模型概念简单的说，统计语言模型是用来计算句子中某种语言模式出现概率的统计模型。一般自然语言的统计单位是句子，所以也看作句子的概率模型。二、语言模型公式注意：是一个句子，是一个句子中n个词指后一个词与前面一个词的关系假设一个长度为 n 的句子，位置 k 的词出现的概率与其前面的所有的词都相关，也就是说与它前面的 k-1 个词都相关，其语言模型可以表示为利用贝叶斯公式得到：当有一个能够容纳所有语言现象的语料库，即统计样本足够大时，...

2022-03-22 14:37:15 826

原创 python基础之闭包、装饰器

一、闭包1、闭包的概念：闭包是一个函数，可以访问到另一个函数的作用域。2、闭包的特点：1. 存在内外层函数嵌套的情况2. 内层函数引用了外层函数的变量或者参数（自由变量）3. 外层函数把内层的这个函数本身当作返回值进行返回，而不是返回内层函数产生的某个值4、闭包可以访问到父级函数的变量，且该变量不会销毁二、装饰器1、概念装饰器就是提供了一些额外的功能注意：多个装饰器的运行方式是由下到上2、代码def outfunc(func): def i

2022-03-21 23:32:09 648

原创 python基础之类方法和静态方法

一、类方法(classmethod)类方法是从属于“类对象”的方法。类方法通过装饰器@classmethod来定义，格式如下@classmethoddef 类方法名(cls [，形参列表]) ：方法体注意：@classmethod必须位于方法上面一行第一个cls必须有；cls指的就是“类对象”本身调用类方法格式：类名.类方法名(参数列表)。参数列表中，不需要也不能给cls传值类方法中访问实例属性和实例方法会导致错误子类继承父类方法时，传入cls是子类对象，

2022-03-21 00:02:10 4805

转载 Focal loss 参考理解

一、Focal loss 目的Focal loss主要是为了解决one-stage目标检测中正负样本比例严重失衡的问题。该损失函数降低了大量简单负样本在训练中所占的权重，也可理解为一种困难样本挖掘。参考：Focal Loss理解 - 三年一梦 - 博客园...

2022-03-20 17:10:38 173

原创 scrapyd

一、scrapyd介绍scrapyd是一个用于部署和运行scrapy爬虫的程序，它允许你通过JSON API来部署爬虫项目和控制爬虫运行，scrapyd是一个守护进程，监听爬虫的运行和请求，然后启动进程来执行它们二、安装scrapyd1、安装命令pip install scrapyd2、启动scrapydscrapyd访问链接，访问不成功原因：防火墙问题(尝试把防火墙关掉在开启scrapyd服务)systemctl status firewalld # 查看

2022-03-19 13:16:40 2151

原创特征金字塔网络FPN

一、FPN特征金字塔网络（FPN）是一种旨在提高准确率和速度的特征提取器。它取代了检测器（如 Faster R-CNN）中的特征提取器，并生成更高质量的特征图金字塔 FPN 由自下而上和自上而下路径组成。其中自下而上的路径是用于特征提取的常用卷积网络。空间分辨率自下而上地下降。当检测到更高层的结构，每层的语义值增加2、ResNet FPNFPN 结合 RPN FPN 不单纯是目标检测器，还是一个目标检测器和协同工作的特征检测器。分别传递到各个特征图.

2022-03-18 18:07:13 7257

原创目标检测之RCNN、SPP-net、FastRCNN和FasterRCNN的学习

一、RCNN1、R-CNN的问题训练对象训练CNN里面的卷积，用log loss进行训练把CNN里面参数固定住了，然后接SVM(hinge loss)做二分类或者多分类把CNN里面参数固定住了，然后接线性回归(最小二乘) 训练时间长，占用很多磁盘空间 Inference（正向传播）使用这一套流程很慢 CNN用了VGG16也花了47s 二、SPP-net(Spatial Pyramid Pooling 空间金字塔池化 )...

2022-03-12 20:42:21 3802

原创目标检测学习

一、古典目标检测流程第一部分：训练集构造正样本：就是手工标记的GT区域为正样本负样本: 使用SS(选择搜索Selective Search)方法对区域进行融合--> 计算每个候选区域（Region Proposals、bouding boxes）与真实标记区域GT之间的重合,如果区域A与GT的重合度在20-50%之间,而且A与其他的任何一个已生成的负样本之间的重合度不大于70%,则A被采纳为负样本; 第二部分：提取每个正\负样本的特征 HOG特征 + bag-of-wor

2022-03-06 13:01:52 2407

原创 EM算法思想

一、Jenson 不等式如果 f 是凸函数，X 是随机变量，那么：注意：特别地，如果 f 是严格凸函数，当且仅当 X 是常量时，上式取等号。例如：二、EM算法：1、隐变量似然函数下界其中：Z（Z1...Zk）是隐变量，它是不可观测的，为完全数据，能观测到的x为不完全数据2、似然函数求下界(通过Jensen不等式)注意：3、E-step 寻找紧的下界通过Jensen不等式，等式两边相等的条件为X=C(常数)于是通过...

2022-02-22 22:52:49 327

原创聚类之GMM高斯混合模型

一、高斯分布的似然函数1、高斯分布密度函数能得出每个x(每个样本)取值的概率表示式(其中μ，σ未知，需要求的)2、高斯分布的似然函数N条样本发生的总概率为根据最大似然估计思想，当上式值为最大时，能得到最优的μ，σ分别对μ和σ求偏导，令偏导数为0，得到μ和σ的值二、GMM混合高斯模型的似然函数假设随机变量X是有K个高斯分布混合而来，任意一条样本在在K个高斯分布的概率为为Π1，Π2 直到Πk，第j个高斯分布的均值为μj,标准差为σi（Π1+Π2+...+Π...

2022-02-19 17:19:52 764

原创无监督学习之聚类算法

一、聚类用途1、知识发现发现事物之间的潜在关系 2、异常值检测 3、特征提取数据压缩的例子

2022-02-16 22:12:10 421

原创数据间的相似度求解方法

一、欧式距离1、二维空间中的欧式距离2、高维空间下的欧式距离其中x,z表示两个点，i 表示x,z两点中某列二、余弦距离注意：cosθ等于两个向量内积的前提条件(两个向量的模为1)1、公式...

2022-02-08 17:11:55 718

原创 SVM算法

一、SVM支持向量机算法支持向量机(Support Vector Machine, SVM)本身是一个二元分类算法，是对感知器算法模型的一种扩展，现在的 SVM 算法支持线性分类和非线性分类的分类应用，并且也能够直接将 SVM 应用于回归应用中，同时通过 OvR 或者 OvO 的方式我们也可以将 SVM 应用在多元分类领域中。二、感知器算法参考：感知器算法_宠乖仪的博客-优快云博客三、SVM算法和感知器算法相同和不同点1、相同点：(1)...

2022-02-05 03:54:35 388

原创拉格朗日函数

一、拉格朗日函数作用拉格朗日函数主要处理有约束条件的函数二、拉格朗日函数表达式定义某原始最优化问题的拉格朗日函数为：其中 ci 是第 i 个不等式约束函数，bj 是第 j 个等式约束函数αi 和βi 是拉格朗日乘子三、拉格朗日函数特性令若 x 不满足之前的约束条件：若 x 满足约束条件：拉格朗日函数如果对于进行极小化，就相当于对原始最优化问题进行极小化，它们拥有相同的解对偶问题定义此时极大化称为拉格朗日的极大极...

2022-01-29 00:03:15 12701

原创感知器算法

感知器算法感知器算法是最古老的分类算法之一，原理比较简单，不过模型的分类泛化能力比较弱，不过感知器模型是 SVM、神经网络、深度学习等算法的基础1、感知器的思想：在任意空间中，感知器模型寻找的就是一个超平面，能够把所有的二元类别分割开。感知器模型的前提是：数据是线性可分的。2、感知器算法的公式(判别式)正确分类：y*θx>0，错误分类：y*θx<0；所以我们可以定义我们的损失函数为：希望使分类错误的所有样本到超平面的距离之和最小。3、几何距离和函数距离..

2022-01-28 10:01:50 2748

原创 python 之js逆向分析用到的库

js = """ function add(num1,num2){ return num1+num2}"""def func1(): import execjs # pip install PyExecjs # 编译加载js代码 ctx指的是js上下文环境 ctx = execjs.compile(js) # 执行js rs = ctx.call('add',1,1) print(rs)def func2(): .

2022-01-26 15:27:18 1584

原创 Softmax回归

一、Softmax回归softmax 回归是一种做多分类的算法，softmax 回归是假设多项分布的，多项分布可以理解为二项分布的扩展二、Softmax公式的推导1、Softmax回归是假设数据服从多项式分布2、假设多项式分布式是广义线性回归模型的指数分布族一种3、多项式分布目标值yε{1,2,3,...,k}；（其中是类别种数）其概率分布为：4、多项式分布的概率密度函数为：注意：定义示性函数l{bool式子}1{bool式子}，当bool式子为真，示性函数为1，反之为0.

2022-01-25 22:37:07 867

原创 linux 安装python 坏境

1.1 安装系统依赖包sudo dnf install wget yum-utils make gcc openssl-devel bzip2-devel libffi-devel zlib-devel -y1.2 下载Pythonwget https://www.python.org/ftp/python/3.7.8/Python-3.7.8.tgz1.3 解压tar xzf Python-3.7.8.tgz 1.4 安装cd Python-3.7.8 sudo ./

2022-01-25 20:05:23 1379

原创启动redis失败 Could not create server TCP listening socket 127.0.0.1:6379: bind: 操作成功

这句话的意思是：无法创建服务器监听该端口执行一下命令redis-cli.exe # 进入客户端shutdown # 关闭该redis服务exit # 退出redis-server.exe redis.windows.conf # 重新启动reids 服务

2022-01-25 18:22:27 6572

原创 Tensorflow概要和安装过程

一、TensorFlow 概要由 Google Brain 开源，设计初衷是加速机器学习的研究2015 年 11 月在 GitHub 上开源2016 年 4 月分布式版本2017 年发布了 1.0 版本，趋于稳定Google 希望让这个优秀的工具得到更多的应用，从整体上提高深度学习的效率TensorFlow 实现的算法可以在众多异构的系统上方便地移植，比如 Android 手机、iphone、普通的 CPU 服务器、大规模 GPU 集群除了执行深度学习算法，TensorFlow 还可以用来

2022-01-24 23:24:33 1561

原创机器学习之线性分类——逻辑回归

一、

2022-01-22 10:35:29 1312

原创广义线性回归推导出逻辑回归(Sigmoid)和多元线性回归

一、广义线性回归是什么1、广义线性回归满足三条定理二、指数族分布（The exponential family distribution）有哪些？指数族分布有：高斯分布、二项分布、伯努利分布、多项分布、泊松分布、指数分布、beta 分布、拉普拉斯分布、gamma 分布三、广义线性模型公式η 是自然参数（natural parameter，also called thecanonical parameter）。T(y) 是充分统计量（sufficient statist..

2022-01-19 23:39:20 1134

原创升维的学习

一、升维的目的升维的目的是为了去解决欠拟合的问题的，也就是为了提高模型的准确率为目的的，二、升维的常见手段最常见的手段就是将已知维度进行相乘来构建新的维度例如：数据集有两个维度，分别为X1,X2，升维后有 X1,X2,等五个维度三、升维的意义1、为了使用线性模型去拟合非线性数据，更好的拟合目标变量2、增加影响目标变量的因素，更好的拟合3、提高模型的准确率。四、代码""" 多项式回归升维from sklearn.preprocessing import

2022-01-17 23:15:55 1590

原创正则化( regularization)的学习

一、过拟合和欠拟合欠拟合：还没有拟合到位，训练集和测试集的准确率都还没有到达最高；过拟合：拟合过度，训练集的准确率升高的同时，测试集的准确率反而降低。二、正则化的理解防止过度拟合，增加模型的鲁棒性，本质是牺牲模型在训练集上的正确率来提高在测试集上的准确率。三、惩罚项的种类L1正则项公式： 2. L2正则项公式：其实 L1 和 L2 正则的公式数学里面的意义就是范数，代表空间中向量到原点的距离四、L1、L2正则项的特性、区别1、特性：...

2022-01-16 17:13:53 828

原创归一化的学习

一、归一化的目的是使不同维度的参数θ调整幅度很接近，优化的步调一致。二、为啥对数据使用归一化处理因为当样本数据每个维度的数量级不同时，每个维度的θ从初始位置到目标位置的距离不同，导致收敛的速度不同，归一化处理后可以减小每个维度的调整距离差异，使收敛的速度大体一致。三、归一化的优缺点 1. 优点：使各维度参数同时收敛。提高精确度2. 缺点：受离群值的影响比较大。四、归一化的种类1、标准归一化1.1 标准归一化公式通常标准归一化中包含了均值...

2022-01-15 20:03:51 695

原创 redis 非线性数据库（二）

一、redis中发布与订阅1 什么是发布与订阅 Redis 发布订阅 (pub/sub) 是一种消息通信模式：发送者 (pub) 发送消息，订阅者 (sub) 接收消息。 Redis 客户端可以订阅任意数量的频道。2 发布与订阅的命令订阅：subscribe channel 订阅频道channel。发布：publish channel msg向频道channel 发送一条msg消息。注意：只有订阅的客户

2022-01-15 12:22:36 425

原创梯度下降法求解最优解

一、无约束最优化问题的求解算法1、使用梯度下降法的目的梯度下降法(Gradient Descent)是一个算法，目的都是期望以最快的速度把模型参数θ求解出来，梯度下降法就是一种经典常用的优化算法。2、使用梯度下降法适用的范围非线性和线性，非凸和凸函数，无约束条件3、使用梯度下降法的好处梯度下降可以不用一次性求出最优解，不会有内存溢出问题随着维度的增加求解析解的时间几何增长，梯度下降法不存在这个问题，时间快，效率高4、如何理解梯度下降法的原理初始设置一组θ，根据当.

2022-01-14 23:41:10 1060

原创通过解析解方式求多元线性回归最优解

一、最小二乘损失函数二、把最小二乘用线性代数的方式来表示三、推导出θ的解析解形式把最小二乘看成是一个函数曲线，极小值（最优解）一定是个驻点，驻点顾名思义就是可以停驻的点，而图中你可以看出驻点的特点是统统梯度为 0，梯度：函数在某点上的切线的斜率于是，我们把进行求导四、判定函数是否为凸函数判定凸函数的方式：判定凸函数的方式非常多，其中一个方法是看黑塞矩阵是否是半正定的。黑塞矩阵（hessian matrix）是由目标函数在点 X 处的二阶偏导数..

2022-01-13 21:23:19 978

原创机器学习之线性回归

一、简单的线性回归例如： y=ax+b这个公式中，y是目标变量(应变量)，x是自变量，x是影响y的因素，a,b的公式上的参数即要求的模型。在数学里面 y=ax+b是一元一次方程，a是这个方程的斜率，b是在y的截距。当我们有多个方程组(已知的x,y)，多个方程组解出来的参数a,b的值不一样。那我们需要寻求最优解二、最优解Actual value:真实值，即已知的yPredicted value:预测值，是把已知的x带到公式里面和猜出来的参数a,b计算得到的Error:误差，预..

2022-01-13 20:53:25 5310

python_reptile.zip

numpy库的常用命令.7z

空空如也