自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(21)
  • 收藏
  • 关注

原创 第三章 k近邻法

k近邻法(k-nearest neighbor,k-NN)顾名思义,就是k个相邻的邻居,这说明我们如果给定一个新的实例的时候,它是要根据最近的k个邻居来决定。k近邻法是一种基本的分类与回归方法。主要思想是:假定给定一个训练数据集T,其中实例给定,当输入新的实例x时,可以根据其最近的k个训练实例的标签,预测新实例x对应的标注信息。对于分类问题:对新的实例,根据与之相邻的k个训练实例的类别,通过多数表决等方式进行预测。

2025-06-09 23:58:10 847

原创 第二章 感知机

我们每走一步就涉及到方向和步长的问题,我们可以每到一处感受一下当前的所处位置的往下最陡的方向,然后迈一小步,接着在新的位置感受最陡的方向,再往前迈一小步,就这样一小步一小步,我们就能到山脚下了,这就是梯度下降法的直观理解。特征空间是三维的,分离超平面就是一个平面。对于感知机模型,参数w对应于分离超平面的旋转程度,而b对应于位移量,所以不停地迭代就可以使得分离超平面越来越接近于能够正确将所有样本点分类的那个超平面,这有可能是橙色的直线,也有可能是黑色的直线,这就说明我们最后得到的分离超平面是不唯一的。

2025-06-09 20:40:24 1043

原创 反向传播

假设橘色的神经元并不是整个神经网络的输出,它后面还有其他的层,那应该怎么算呢?,因为我们不知道后续的层是什么样的。我们可以再往下一层去看,如果绿色的神经元是输出层的话,计算。假如给你如下图的神经网络,它里面有一大堆的参数,计算里面的。我们可以从另一个观点看待这个式子,如下图,其中。是多少,你看这个w=1前面接的输入是-1,你可以瞬间告诉他。,因为神经网络后面可能会又其他的运算,在此,我们先假设知道。对损失函数的梯度,也就是计算神经网络里面的参数。对loss损失函数的导数,计算出后,更新参数。

2025-05-15 14:52:52 248

原创 决 策 树

如果你有一个新的测试样本,动物耳朵形状是尖的,脸型是圆的,而且有胡须,这个模型做出分类决策的方式是:从树的根节点开始,查看其中写入的特征,即耳朵形状,根据这个例子的耳朵形状,要么向左走,要么向右走,这个例子的耳朵形状值是尖的,因此我们将沿着树的左侧分支向下;这指的是将你的训练样本放入虚拟袋中。事实证明,决定何时不再进一步分割的停止标准之一是:熵的减少是否太小,在这种情况下,仅仅增加树的大小是不必要的,并且通过分割可能会增加过拟合的风险,因此如果熵的减少太小或者低于某一个阈值,就不用费心去继续分割了。

2025-05-06 23:42:50 1052

原创 深度卷积模型:案例研究

即使以现在的衡量标准,也是很大的。用256个3×3的过滤器进行卷积,得到13×13×256,进行最大池化,尺寸缩小到6×6×256,把他展平成9216个单元,然后进行一些全连接层,使用Softmax函数输出,看他是1000个可能对象中的哪一个?第一层使用96个11×11,步长为4的过滤器,图像尺寸缩小到55×55×96,随后的最大池化层用了3×3的过滤器,尺寸缩小为27×27×96,然后用256个5×5的过滤器进行Same卷积,得到27×27×256,再来一次做最大池化,尺寸缩小到13×13×256。

2025-04-30 23:58:16 851

原创 卷积神经网络

一种是把卷积和池化称为一层;你可以在卷积操作之前,在图像的边缘再填充一层像素,这样就把6×6的图像填充成了一个8×8的图像,这时候如果你用3×3的图像对这个8×8的图像卷积,得到的输出就不是4×4,而是6×6的图像,这样你就得到了和原始图像一样大小的尺寸。我们再构建一个卷积层,过滤器大小为5×5,步长为1,这次使用十个过滤器,最后输出一个10×10×10的矩阵,标记为Conv2,然后做最大池化,超参数f=2,s=2,最后输出为5×5×10,标记为POOL2,这就是神经网络的第二个卷积层,即Layer2。

2025-04-30 15:50:17 979

原创 优化算法

另一方面,这个曲线会右移,因为你在一个更大的窗口内计算平均气温,这个指数加权平均在温度变化时,适应的更加缓慢,这就造成了一定的延迟,使得之前的值具有更大的权重,而当前值的权重非常小。当你使用适量的小样本进行Mini-batch梯度下降法时,也许一个批次只有64或128个样本,当你迭代时会有噪声,它会逐步向最小点靠近,但不会完全收敛到最小点,你的算法最后会在最小值点附近浮动,这是因为你的学习率取了固定值,不同的Mini-batch中有噪声。,这就是只对两天进行平均,如果画出来,就会得到黄色的线。

2025-04-25 22:02:25 800

原创 深度学习的实践方面

我们从单一神经元的角度来看这个问题,比如对于画箭头的这个神经元,它的任务就是利用这些输入单元生成一个有意义的输出,而如果使用了Dropout,这些输入会被随机的丢弃,因此这就意味着,这个神经元不能依赖任何特征,因为每个输入特征都有可能被随机丢弃,我们不愿意把所有的赌注都放在一个输入神经元上,因此这个神经元给每个输入一个较小的权重。通过数据增强获得的图片所含有的信息量肯定是不如获得新的数据图片的,但这样做的代价成本很小,是一种廉价的方式来为你的算法获得更多数据,而且减少了过拟合。

2025-04-23 21:08:36 911

原创 第一章 统计学习方法概述

统计学习应用于很多领域,比如:人工智能、模式识别、数据挖掘、自然语言处理、语音处理、机器学习、信息检索、生物信息。比如百度使用了信息检索的内容;现在各个国家都在研究的人工智能。对于这些方法,统计学习就是它们的核心技术。统计学习(Statistical Machine Learning)是关于计算机(平台)基于数据(研究对象)构建概率统计模型(方法)并运用模型对数据进行预测与分析(目的)的一门学科。简而言之,就是用已知的数据对未知的新数据进行预测和分析。

2025-04-23 17:57:52 884

原创 深度学习简介

假设做手写数字辨识,现在有一张图片和对应的标签。让图片通过神经网络后,得到一个输出y。计算y和之间的Cross Entropy,然后用梯度下降算法不断地调整参数,使得Cross Entropy越来越小。在整个数据集中,我们有很多样本,通过神经网络可以得到一个预测值y输出,我们把所有的预测值和真实标签之间的Cross Entropy加起来,得到一个总loss值。然后,我们在函数集中找到一个使得总loss最小的函数。

2025-04-18 20:52:12 250

原创 浅层神经网络

在这样的情况下,多个隐藏元将失去意义。如果你使用的是sigmoid或者是tanh函数,初始化参数w值过大,就有可能在一开始训练时落在激活函数很大的区域,导致激活函数接近饱和,梯度下降缓慢,减缓学习速度。Leaky Relu和Relu函数的优点是:对于大部分的z空间,激活函数的导数不会为0,神经网络的学习速度通常比tanh函数或者sigmoid函数快得多。有个激活函数几乎总比sigmoid函数表现更好,比如tanh函数(双曲正切函数),因为函数的输出介于-1和1之间,激活函数的平均值更接近与0。

2025-04-18 12:36:55 586

原创 监督学习:分类

线性回归不仅可以预测0和1的值,它还可以预测在0和1之间的数字,甚至大于1或小于0的数字。这个特定的代价函数是在统计学中使用一种最大似然估计的统计原理推导出来的,这是统计学中,关于如何高效找到不同模型参数的一个想法。假设下图是你的数据集,输入特征x是房子大小,y是房价,你可以使用线性函数拟合这组数据,但可能并不是一个很好的模型,因为没有很好的拟合数据。(2)学习算法有一个非常强烈的偏见,认为房价完全和面积成线性关系,尽管数据可能与此相反,导致它拟合了一条与数据吻合不佳的直线,从而导致数据欠拟合。

2025-04-14 00:37:50 1106

原创 深度学习简介

我们从预测房价这个例子开始。假设你有一个数据集,它是6个房子的数据,你知道房子面积以及对应的房价。我们想要用一个函数,根据房子面积预测房价。我们可以用一条直线来拟合数据,但你可能会说,价格不可能是负数,如果用单纯的直线来拟合数据,可能会出现负数的情况,所以我们可以把直线折一下,使其在这里归零。你可以把刚才根据房价拟合出来的函数当做一个很简单的神经网络。房子的大小x作为对神经网络的输入,通过神经元输出预测房价:一个单一神经元,是非常小的网络;

2025-04-13 13:33:35 346

原创 多变量线性回归

但是现在,我们不仅有房屋面积作为预测房价的一个特征,我们还知道房间数、楼层数以及房子的年代等等,这给了我们更多的信息用来预测房价,模型用(x1,x2,x3,x4)来表示特征,y表示预测的房价。这里的x轴表示梯度下降算法的迭代次数,随着梯度下降算法的运行,可能会得到这样一条曲线,这条曲线显示的是:梯度下降的每步迭代后,代价函数的值。值,比如0.001 ,0.003, 0.01,0.03, 0.1,0.3,1 ,然后对于这些不同的。n -------- 特征量的数目,在这个例子中,n=4。

2025-04-08 23:57:09 948

原创 单变量线性回归

梯度下降有一个有趣的特点:第一次运行梯度下降法时,我们是从某个点开始的,如果我们从初始点右边一点的位置开始 ,使用梯度下降算法,重复上述的步骤,梯度下降算法会将你带到右边的第二个局部最优处,这是与之前完全不同的局部最优点。上面的例子,我们只有参数w,绘制出来的图形是J(w)的函数,但是现在我们有参数w和b,因此代价函数图形变得复杂了。根据为这些参数选择不同的值,会得到不同的直线,我们想找到w和b的值,使得这条直线能很好的拟合训练数据,为了衡量选择的w和b的值对训练数据的拟合程度,用一个代价函数。

2025-04-08 15:10:59 861

原创 监督学习与无监督学习

中的应用,许多公司拥有庞大的信息数据库,对于一个客户数据集,你能否自动找出不同的市场细分,并自动将你的客户分到不同的细分市场,从而能够自动高效地在不同的细分市场中进行销售,这也是无监督学习,因为我们有全部的客户数据,但我们预先并不知道有哪些细分市场,而且对于我们数据集中的客户,我们也不能预先知道谁属于细分市场1,谁又属于细分2等等,但我们必须让算法自己从数据中发现这一切。在这个例子中,我们只使用了一个特征或者属性,即肿瘤的大小,来预测肿瘤是良性的还是恶性的,在其他机器学习问题中,我们会有多个特征。

2025-04-07 14:36:44 734

原创 解决Kaggle新用户注册的Captcha must be filled out问题

今天,在注册时kaggle时,填写完了信息点击Next,弹出了Captcha must be filled out的红字。现附上解决方法。 或者

2025-01-14 18:23:59 1275 2

原创 深度学习----线性表示代码

一个人有外貌、性格、财富、内涵这四个维度的分数,通过这四个维度的分数,可以得到一个人的恋爱次数。假设这四个维度的权重w分别为(801,2,2,4),偏置b=1.1。

2025-01-10 21:56:32 194

原创 深度学习——多层神经网络

如果全等的传输信息,即从外界获取到5个信息,经过神经元的传输后,大脑也接收到5个信息,那么串联的神经元似乎只有传递的作用,,那么一根和多根似乎没有区别了。对于AI,也是这样的。我们都知道,人的神经元不是只有一条的,是有多条的,也就是说,多条神经元接收到相同的外部信息,再把信息传输给大脑,让大脑做出决断。但是,这与神经网络图的表示方式是一模一样的,只不过,换成了矩阵的形式。从图中,我们可以清楚的看到预测函数和真实函数是贴着的,也就是说,当真实函数是线性函数时,即使模型没有激活函数,它也能够准确的预测。

2025-01-09 20:20:52 1591

原创 深度学习.

定义一个合适的损失函数(loss函数),用来衡量定义的函数f'和真实函数f之间的差值有多大。即L=(1.9+2.9+4.1+5.3+6.2+6.5) / 6 = 4.48 ,这个Loss值就衡量了w0=3,b0=2这组数字选的好不好,显然数字太大了,选取的不好。值得注意的是:这样的线性公式只能画出一条直线,即它没办法只画一条直线,把下图的三角形和正方形分开,而它又无法画出下图的圈。x通过函数f映射到y。有的时候需要多个模态(模态:例如有图有数据的任务)的数据,比如图片,文字,声音都是不同的模态。

2025-01-08 17:36:33 1283

原创 机器学习算法简介

不是认识的人,有垃圾关键词,就是垃圾邮件,没有垃圾关键词,就不是垃圾邮件。如果来了一个新的邮件,按照决策树走一趟,走到叶节点,就可以判断是否是垃圾邮件。这种情况很可能遇到问题,假如没有垃圾关键词的邮件中,有垃圾邮件,这时只能添加其他特征。例如:判断红点是A类还是B类,当邻居数量是3时,有1个A类,2个B类,判断红点是B类;当邻居K=6时,有4个A类,2个B类,判断红点是A类。一般是基于数学,或者统计学的方法,具有很强的可解释性,但准确率不是百分百,且不灵活。朴素贝叶斯的后验,通过结果来推断前面选择。

2025-01-04 23:32:05 193

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除