自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(42)
  • 收藏
  • 关注

原创 分位数回归(Quantile Regression)代码解析

实验代码本文采用python sklearn库中,作为quantile regression的示例代码。以下为详细解析:import numpy as npimport matplotlib.pyplot as pltfrom sklearn.ensemble import GradientBoostingRegressor%matplotlib inlinenp.random.seed(1)#设置随机数生成的种子def f(x): """The function to pre

2020-07-02 16:52:32 7950 1

翻译 分位数回归(Quantile Regression)

数据采用分位数回归在执行回归分析时,仅对问题进行数值预测还不够,您还需要表达您对该预测的信心。例如,如果您正在查看特定市场中房屋的价格,并且您的模型预测房屋的售价为262,458.45美元,那么您对模型的预测是否正确的信心如何?希望您的直觉会说这是真的,而且可能性很小,但是也许您的模型很接近实际答案。我们需要一种在一定范围内具有一定置信度的同时预测值范围的方法。输入分位数回归。与常规线性回归不同,常规线性回归使用最小二乘法来计算不同特征值之间目标的条件均值,分位数回归估计条件 中位数 目标的。分位数回.

2020-06-29 14:56:31 23311 1

原创 吴恩达deeplearning.ai《卷积神经网络》-目标检测(三)

目标定位image classification图像分类,解决识别出图像中是否是汽车classification with localization图像分类并定位,识别出图像中是否有汽车,并且用方框圈出来位置detection目标检测,图像中有多个车辆或行人等事物,同时用方框圈出来其位置为了实现图像分类并定位,我们要求神经网络的输出,不仅有softmax的分类结果,还要输出识别结果的位置信息,形成bounding box(bx,by,bh,bw)。bx,by为横纵坐标,bh为图像框高度,bw为图像

2020-06-05 23:34:19 632

原创 吴恩达deeplearning.ai《卷积神经网络》-深度卷积网络:实例探究(二)

为什么要进行实例探究ResNet(Residual Network)残差网络,深度有152层inception Network经典网络LeNet-5当时没有采用padding,故图像的尺寸会越来越小。LeNet-5启发我们现代的网络结构:多个卷积层后,跟着池化层。或多个卷积层,跟着池化层,最后跟着几个全连接层。此外LetNet-5在池化层后,加入了非线性函数。本例中,池化层后加入了sigmoid函数AlexNet中的卷积操作使用了padding其参数个数大大增加。相对于LeNet-5的6

2020-06-01 15:09:57 1058

原创 吴恩达deeplearning.ai《卷积神经网络》-深度学习的实用层面(一)

计算机视觉计算机视觉解决的问题:1.图像分类问题识别出一张图片是不是猫2.目标检测将图片中的车用方框圈出来3.图像风格迁移将图像和另一张带有风格的图片,结合成新的图片如果采用RGB图像,一个像素一般是三通道的。故,一个图片64×64×3=12288个特征如果是下面猫的图像,总共3 million个特征,放入神经网络训练,就会导致3m个输入的x假设我们第一层隐藏节点的个数为1000个,那么我们w[1]为(1000,3m)这也就导致w[1]总共有1000×3m=3billion 个参数。

2020-05-23 02:19:02 569

原创 吴恩达deeplearning.ai《改善深层神经网络:超参数调试、正则化以及优化》-超参数调试,Batch正则化和程序框架(三)

调试处理根据调参的重要程度排序,首要重要的是红色,即学习率α,其次重要为黄色,再次之为紫色。当我们尝试参数的时候,尽量采用一定范围内随机取值。而不是划定网格,有规律的取值。因为面对很多维度参数时,很难说我们能直观衡量出哪一个参数对于整个学习更加重要。如果你随机取值,也就能探索更多超参数的潜在值。当我们寻找在一个区域的参数表现很好的时候,我们可以划定一个范围,更加精细的随机尝试取值。即大范围粗略尝试,小范围精细尝试。为超参数选择合适的范围当我们选择参数时,一般要选定一个合理的范围。之后在这个范围内,

2020-05-18 22:50:25 458

原创 吴恩达deeplearning.ai《改善深层神经网络:超参数调试、正则化以及优化》-优化算法(二)

mini-batch梯度下降在大数据等数据量大的时候,使用深度学习会导致很长的计算时间。故我们引用了一些优化算法,提高算法运行效率。mini-batch梯度下降将数据集分为t个子集。每一个子集分别进行梯度下降。理解mini-batch梯度下降batch梯度下降的图像如图左图所示,mini-batch梯度下降的图像如图右图所示可见mini-batch梯度下降的曲线并非光滑下降的。因为不同的小数据子集,其计算花费不一定为最小。可能由于极端数据,导致某一子集中,计算花费变大。但是总体趋势,却是下降的

2020-05-17 15:38:33 565

原创 吴恩达deeplearning.ai《改善深层神经网络:超参数调试、正则化以及优化》-深度学习的实用层面(一)

训练/开发/测试集数据集划分:training set,dev set (cross validation set),test set一般会按照比例划分,但是对于大数据来说。如果有1000 000的数据。我们会缩小dev set和test set的大小。因为这两个数据集,是用来选择合适的算法,与评估算法的各项指标的。故,本案例中,采取了10 000,即1%的比例另一个问题:训练集数据,测试...

2020-04-25 23:05:03 432

原创 吴恩达deeplearning.ai《神经网络和深度学习》-深层神经网络(四)

为什么要使用深层神经网络电路定理来解释:如果使用多层神经网络,计算上面的x1 XOR x2 …,其算法的复杂度为O(logn)使用单层神经网络,其算法的复杂度为O(2n)搭建深层神经网络块向前传播和向后传播如何计算前向和反向传播前向传播公式反向传播公式参数VS超参数超参数能决定W,b的值。我们目前有很多的超参数,如:learning rateiterations...

2020-04-25 00:14:32 396 1

原创 吴恩达deeplearning.ai《神经网络和深度学习》-浅层神经网络(三)

多个例子中的向量化其中a[2](i),表示2表示第2层神经网络。i表示第i个训练样本。故我们可以将左边,使用循环对数值计算的神经网络,转化成右侧向量化计算。可以看出输入特征为几维,则输出特征为几维。激活函数tanh激活函数性能,优于sigmod激活函数。但是,如果分类为一个二分类问题,建议使用sigmod函数。因为其输出的区间,在0,1区间中。更建议使用ReLu激活函数,其在0...

2020-04-25 00:06:58 361

原创 吴恩达deeplearning.ai《神经网络和深度学习》-神经网络基础(二)

2.1二分类问题将三通道的RGB图片每一个像素值竖直摞起来放置,形成特征向量x.即特征向量x为64×64×3(12288,1)的矩阵我们用x(1)代表第一张训练图片形成的特征向量总共共训练m张训练图片。将x(1)—x(m)横向放置,形成大矩阵X。故X为(nx,m)的矩阵输出的标签结果y,为(1,m)的矩阵logistic regression逻辑回归另一种写法:x0=1...

2020-04-24 23:49:05 254

原创 吴恩达deeplearning.ai《神经网络和深度学习》-深度学习概论(一)

数据集越大使用深度学习效果越明显​对于图片数据适用于CNN神经网络对于音频,文字翻译适用于RNN神经网络对于图像与雷达信息的结合,适用于个性化订制的混合神经网络普通神经网络,CNN,RNN结构化数据与非结构化数据对于小尺寸的训练集,工程师的手工调参更重要。可能SVM等机器学习算法的效果超越神经网络的表现效果。但是对于大数据级别的数据,神经网络的优势突显。越大的数据量,就...

2020-04-24 23:13:20 231

原创 吴恩达《Machine Learning》-Recommender Systems推荐系统(十六)

我们已经在这课上看到了特征对于机器学习很重要,选择的特征将对机器学习算法的性能产生很大的影响。所以在机器学习中对于一些问题,一些算法可以自动地尝试一套好的特征。还有很多其他的,但是刻在推荐系统中的,将能够对学习这些功能的想法有一点了解,我认为,在机器学习中,至少可以看到一个这样的例子。其中nμ表示用户数量nm表示电影数量r(i,j)=1 表示假如用户j对于第i个电影进行过评分y^(i,...

2019-08-12 00:07:16 566

原创 吴恩达《Machine Learning》-Anomaly Detection异常检测(十五)

Anomaly Detection异常检测就是将异常的数据检测出来。举个例子:当一辆飞机生产完后,我们需要对它的性能指标进行检测,例如引擎运算时产生的热量,引擎的震动等。然后我们对这些特征向量进行采集,那么就有了一个数据集了。假如我们的测试数据在我们数据集允许的误差范围内,那么这个数据是正常的,假如离误差范围太远,那么这个数据则异常数据的。假如要更为正式定义异常检测问题,首先我们有一组从 ...

2019-08-05 12:06:12 569

原创 Spark排序与取TopN问题

(一)TopN统计一.Hive sql实现方法需求描述:根据活跃天数排名,选取每个用户使用的Top10的appid与app名称思路解析:1.使用row_number()函数达到排序目的2.以用户的手机号为分组,(统计每一个用户的app排名),以活跃天数排序,排序字段命名为rn_vnt字段。并取出前十的app信息。 sql(sqlText = s"select serv_num...

2019-07-25 18:42:01 1939

原创 吴恩达《Machine Learning》-Dimensionality Reduction降维(十四)

Data Compression数据压缩为了让机器学习算法的运行效率更高,我们一般对于一些有特点的数据采取数据压缩。如上图,数据集大多分布在一条线上附近,这种数据我们可以采用数据压缩。其操作是将直线附近的数据投影在本直线上。相当于将一个二维数据,降维成一维数据。同理多于三维数据,我们也可以考虑投影在二维平面。(一般三维数据分布在二维平面附近)。此时我们仅仅需要两个维度,即投影二维平面的Z...

2019-07-22 20:03:55 413

原创 吴恩达《Machine Learning》-Unsupervised Learning无监督学习(十三)

监督学习非监督学习在无监督学习中,我们面对的是一组无标记的训练数据。数据之间不具有任何关联的标记。所以我们需要在数据点中,求出数据的分布结构。其中一种算法就是聚类算法(Clustering Algorithm),用来分析把数据分成每一组。练习题:选择(A,B,C)D.聚类算法不是唯一的非监督学习算法k均值聚类算法(k-means clustering algorithm)...

2019-07-22 19:28:42 667

原创 吴恩达《Machine Learning》-Support Vector Machines支持向量机(十二)

在逻辑回归中假如真实值y=1,我们想要预测值接近于1,那么在逻辑回归中也就是θT*x远大于0图像中,横轴为z也就是θT*x,纵轴为损失函数。这也证明了左图,当θT*x越大时损失函数越小。(我们想要预测值接近于1,那么在逻辑回归中也就是θT*x远大于0)假如y=1时,后面(1-y)log(1-hθ(x))为0。画出图像如左面所示。其中蓝色线,为支持向量机算法y=1时的曲线。1.支持向量...

2019-07-16 23:55:19 1251

原创 吴恩达《Machine Learning》-Machine Learning System Design机器学习系统设计(十一)

Prioritizing What to Work On确定工作的优先顺序建立垃圾邮件(拼写错误)和非垃圾邮件的监督学习分类器如果数据中存在此单词,向量中标为1。如果数据中不存在此单词,向量中标为0。对于邮件特征,我们经常挑选出频率高的单词,而不是手动根据经验选择100个单词。减少错误率的方法(不一定都有效,具体问题具体分析)1.收集大量的数据,也就是样本,来增大我们的训练量。...

2019-07-14 17:03:06 598

原创 Hive删除表中数据

背景:当我们想要删除Hive表中部分符合条件的数据时:发现Hive表删除数据不能使用\color{red}{不能使用}不能使用DELETE FROM table_name 中SQL语句解决方案1.删除符合条件的数据:其中xxx是你需要保留的数据的查询条件。insert overwrite table t_table1 select * from t_table1 where XXX...

2019-07-12 15:39:33 6310

原创 吴恩达《Machine Learning》-Advice for Applying Machine Learning应用机器学习的建议(十)

假如预测数据与真实数据之间的差距很大。可以尝试一下步骤:Machine learning diagnostic机器学习诊断:来判断机器学习算法的内部,并且获得提高性能的指导练习题:选择(B,C,D)A.根据感觉判断肯定是错的B.诊断可以提供指导,哪些可能更有成效的事情,试图改善学习算法。C.执行和尝试诊断可能很费时,但它们仍然可以很好地利用您的时间。D.诊断有时会排除某些操作过程(...

2019-07-11 11:36:51 308

原创 吴恩达《Machine Learning》-machine-learning-ex4神经网络学习作业(四)

nnCostFunction.m对于神经网络我们需要计算其损失函数值J(θ)与grad梯度。1.前向传播计算损失函数值J(θ)首先计算hθ(x)=a(3)公式如下:加入正则项的损失函数公式(注意程序中为向量表达,此处为数值表达):2.反向传播计算梯度grad公式中使用了g’(z(2)),故应先实现sigmod梯度值函数sigmoidGradient(z)。function [...

2019-06-26 23:18:01 1009

原创 吴恩达《Machine Learning》-Neural Networks Learning神经网络学习(九)

L表示神经网络有多少层,本例中为4层L=4st表示神经网络一层中有多少个神经节点,s1=3,s2,s3=5,s4=4对于单分类问题,sL=1(sL也就是最后一层输出层)对于多分类问题,sL=k(k>=3)k表示结果输出多少类别。若k<3,则输出为1类,剩下的另一类采用全集-当前类即可。损失函数cost function:最后输出多少类,k等于多少。对于正则项,不加入...

2019-06-26 16:27:38 601

原创 吴恩达《Machine Learning》-machine-learning-ex3多分类问题与神经网络作业(三)

lrCostFunction.mfunction [J, grad] = lrCostFunction(theta, X, y, lambda)%LRCOSTFUNCTION Compute cost and gradient for logistic regression with %regularization% J = LRCOSTFUNCTION(theta, X, y, la...

2019-06-18 11:44:54 663 1

原创 吴恩达《Machine Learning》-Neural Networks Representation神经网络介绍(八)

对于特征很多的情况,采用 polynomial regression 多项式回归会产生指数型的时间复杂度。O(n^3)(次方数=多项式多少阶)图像特征处理:按像素点处理练习题:选择(C)像素点共有100100=110^4 quadratic terms 平方项为n2/2时间复杂度为o(n2) 故 (104)2/2=5*10^7神经网络原理:将听觉的脑皮层,连接到视觉信号,听觉...

2019-06-17 19:00:16 413

原创 吴恩达《Machine Learning》-machine-learning-ex2逻辑回归作业(二)

sigmoid.mfunction g = sigmoid(z)%SIGMOID Compute sigmoid function% g = SIGMOID(z) computes the sigmoid of z.% You need to return the following variables correctly g = zeros(size(z));% ======...

2019-06-16 22:41:44 505

原创 吴恩达《Machine Learning》-machine-learning-ex1线性回归作业(一)

ex1.m %% Machine Learning Online Class - Exercise 1: Linear Regression % Instructions % ------------ % % This file contains code that helps you get started on the % lin...

2019-06-16 22:26:03 406

原创 吴恩达《Machine Learning》-Overfitting过拟合解决(七)

Overfitting数据过拟合当我们有很多特征,我们的模型拟合训练数据非常好,但是对于新的预测数据,缺乏泛化能力。Underfit数据欠拟合对于训练数据的拟合能力过于弱逻辑回归分类情况练习题:选择(C),过拟合能够很好地拟合训练数据。但是对于新的数据预测能力差,没有泛化能力解决过拟合问题1.减少特征的数量2.使用正则化Regularization正则化为了解决过拟...

2019-06-16 21:10:30 1237

原创 吴恩达《Machine Learning》-Logistic Regression逻辑回归(六)

分类问题选择 哪类是正例,哪类是负例,是随机的。不影响。为什么不用线性回归做分类问题(不使用)使用线性回归,将所有大于0.5的预测映射为1,将所有小于0.5的预测映射为0。先使用线性回归匹配数据,之后需要找到门限值,假设例子中门限值为hθ(x)=0.5。把正负例子都投影到x轴。其中大于0.5的都为正例,小于0.5的都为负例。当有极端数据时,使用线性回归匹配数据。会导致回归线更偏...

2019-06-15 15:07:24 634

原创 吴恩达《Machine Learning》-Octave编程教学与作业提交(五)

1.%为注释>> 1 == 2 % falseans = 02.~= 为不等于号>> 1~=2ans = 13.&&逻辑与>> 1&&0ans = 04.||或运算>> 1||0ans = 15.抑或运算>> xor(1,0)ans = 16.分号关闭提示7.提取...

2019-06-14 14:40:48 2071

原创 吴恩达《Machine Learning》-Linear Regression with Multiple Variables多元线性回归(四)

多特征情况Multiple Features多特征角标解释:m 样本个数n 特征个数 本例中,n=4 (x1,x2,x3,x4)x(i)第i行特征向量 x(2)=[1416,3,2,40]xj(i) 第i行特征向量的第j个特征值 x3(2)=2练习题:选择(C)第4行第一个。(o(╥﹏╥)o 英文看了一会才看懂)多元线性回归multivariate linear regre...

2019-06-10 21:55:34 426

原创 吴恩达《Machine Learning》-gradient descent 梯度下降(三)

在实际中,我们有n个参数θ0,θ1,θ2```````θn在此我们以两个参数举例,最小化J(θ0,θ1)算法:我们以θ0=0,θ1=0开始,保持θ0,θ1参数改变,然后查看J(θ0,θ1)。当J(θ0,θ1)为最小的时候 即为结束从图中点出发,假设你身处在山顶上,即为寻找当前最快下降的方向下山。下降一个位置后,再次寻找当前最快下降的方向下山。最后抵达了局部最优点(低点)另一个位...

2019-06-05 22:59:01 605

原创 吴恩达《Machine Learning》-cost function损失函数(二)

问题:如何选择参数θi?m代表样本数量θ表示 参数 机器学习主要就是学习函数中的参数比如一次函数 不同的参数 会产生不同的函数目的:找到一组θ0,θ1参数使 图中函数的线 尽可能多的拟合到更多的数据点。故也就是使图中线上的函数值hθ(x) 与 数据点的值 y 之间的距离最小。为了防止hθ(x) - y 产生的正负值相加问题。采用平方差,都转换为正数。之后将m个样本的差值求和,除以...

2019-06-04 22:08:40 877

原创 吴恩达《Machine Learning》-概念(一)

入坑吴恩达大佬的机器学习课程。纯英文教学和作业还有编程作业还是很挑战的,希望早日结课拿证。机器学习定义T是此次机器学习的任务测试题:“A computer program is said to learn from experience E with respect to some task T and some performance measure P, if its perfor...

2019-06-04 21:53:36 1693

原创 Spark各个版本WordCount介绍

Spark各个版本WordCount介绍spark分为3种数据类型:RDD,DataSet,DataFrame下面介绍使用3种不同数据类型的WordCount程序初始数据集:a,bc,ad,ba,d1. 初始变量类型RDD使用SparkContext读取文件方法:                &...

2019-05-22 22:44:42 1087

原创 spark sql算子数据类型

spark sql算子返回值数据类型介绍初始变量类型DataFrame加入persist()固化存储,运行速度更快val online_profile_score_df: DataFrame = profile_df.join(score_df, usingColumns =Seq("serv_number","statis_month")) .persist() //线...

2019-05-09 10:41:57 1626

原创 Maven方式建立Spark项目

建立maven项目porn.xml<?xml version="1.0" encoding="UTF-8"?><project xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd" xmlns:xsi="http://www....

2019-05-06 22:33:36 1838

原创 Hive数据入库

查看hadoop fs文件大小hadoop fs -du -h /data/source/查看hadoop fs文件目录hadoop fs -ls /data/source/查看hadoop fs文件夹内所有内容hadoop fs -cat /data/source/*将文件放入hdfshdfs dfs -copyFromLocal 本机文件目录 放入的hdfs目录hdf...

2019-05-06 11:49:40 1641

原创 电信行业统计指标解释

1.用户重合度定义:指一个网站内(或频道)的多少访问者同时浏览了其他网站(或频道)。即同时访问两个网站或频道的用户中有多大比例是重合的。计算方法:缔元信系统通过对用户所使用的浏览器赋予唯一标识来识别用户的身份。通过记录该用户的访问轨迹,来计算频道与频道之间或者网站与网站之间的重合用户数。假设A和B分别为需要计算用户重合度的2个频道或者2个网站的独立用户数,用户重合度的计算公式如下:用户重合...

2019-05-06 11:33:18 2220

原创 正负样本不均衡

样本不均衡类别不均衡是指在分类学习算法中,不同类别样本的比例相差悬殊,它会对算法的学习过程造成重大的干扰。比如在一个二分类的问题上,有1000个样本,其中5个正样本,995个负样本,在这种情况下,算法只需将所有的样本预测为负样本,那么它的精度也可以达到99.5%,虽然结果的精度很高,但它依然没有价值,因为这样的学习算法不能预测出正样本。这里我们可以知道不均衡问题会导致样本较少那一类的高错分率,即...

2019-05-05 23:20:38 2999

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除