Fishel--优快云博客

原创什么是维灾难

随着维度的增加，分类器性能逐步上升，到达某点之后，其性能便逐渐下降有一系列的图片，每张图片的内容可能是猫也可能是狗；我们需要构造一个分类器能够对猫、狗自动的分类。首先，要寻找到一些能够描述猫和狗的特征，这样我们的分类算法就可以利用这些特征去识别物体。猫和狗的皮毛颜色可能是一个很好的特征，考虑到红绿蓝构成图像的三基色，因此用图片三基色各自的平均值称得上方便直观。

2025-01-09 19:26:22 672

原创正规方程的另一种推导方式

总损失定义为：把损失函数分开书写：Xw−y2Xw−yTXw−y对展开上式进行求导：需要求得求导函数的极小值，即上式求导结果为0，经过化解，得结果为：XTXwXTy经过化解为：wXTX−1XTy补充：需要用到的矩阵求导公式：dxdxTAAdxdAxAT。

2025-01-09 19:20:53 432

原创梯度下降法算法比较和进一步优化

它们都是为了正确地调节权重向量，通过为每个权重计算一个梯度，从而更新权值，使目标函数尽可能最小化。其差别在于样本的使用方式不同。我们通过一个数据集案例进行对比，查看他们的区别。

2025-01-09 19:18:09 1022

也就是说，Lasso Regression 能够自动进行特征选择，并输出一个稀疏模型（只有少数特征的权重是非零的）。例如：当α 取值相对较大时，高阶多项式退化为二次甚至是线性：高阶多项式特征的权重被置为0。Lasso Regression 有一个很重要的性质是：倾向于完全消除不重要的权重。Lasso 回归是线性回归的另一种正则化版本，正则项为权值向量的ℓ1范数。，而应对模型进行一定的正则化处理，那如何选择正则化方法呢？其做法为：在验证错误率达到最小值的时候停止训练。一般来说，我们应避免使用。

2025-01-06 11:53:16 890

原创欠拟合和过拟合

过拟合：一个假设在训练数据上能够获得比其他假设更好的拟合，但是在测试数据集上却不能很好地拟合数据，此时认为这个假设出现了过拟合的现象。(模型过于复杂)欠拟合：一个假设在训练数据上不能获得更好的拟合，并且在测试数据集上也不能很好地拟合数据，此时认为这个假设出现了欠拟合的现象。(模型过于简单)那么是什么原因导致模型复杂？线性回归进行训练学习的时候变成模型会变得复杂，这里就对应前面再说的线性回归的两种关系，非线性关系的数据，也就是存在很多无用的特征或者现实中的事物特征跟目标值的关系并不是简单的线性关系。

2025-01-06 11:48:47 864

原创波士顿房价预测

数据介绍给定的这些特征，是专家们得出的影响房价的结果属性。我们此阶段不需要自己去探究特征是否有用，只需要使用这些特征。到后面量化很多特征需要我们自己去寻找。

2025-01-06 11:46:13 377

原创线性回归api再介绍

sklearn提供给我们两种实现的API，可以根据选择使用。

2025-01-06 11:42:28 402

原创梯度下降方法

上一节中给大家介绍了最基本的梯度下降法实现流程，本节我们将进一步介绍和。

2025-01-06 11:32:45 1425

原创线性回归的损失和优化

理解：X为特征值矩阵，y为目标值矩阵。直接求到最好的结果缺点：当特征过多过复杂时，求解速度太慢并且得不到结果梯度下降法的基本思想可以类比为一个下山的过程。假设这样一个场景：一个人被困在山上，需要从山上下来(i.e. 找到山的最低点，也就是山谷)。但此时山上的浓雾很大，导致可视度很低。因此，下山的路径就无法确定，他必须利用自己周围的信息去找到下山的路径。这个时候，他就可以利用梯度下降算法来帮助自己下山。具体来说就是，以他当前的所处的位置为基准，寻找这个位置最陡峭的地方，然后朝着山的高度下降的地方走。

2025-01-06 10:53:48 804

原创数学:求导

yx3−2x2sinex4lnxsinx∗lnxcosxexdxdy。

2025-01-06 10:31:36 523

原创线性回归api

线性回归api

2025-01-06 10:22:03 188

原创线性回归简介

线性回归(Linear regression)是利用回归方程(函数)对一个或多个自变量(特征值)和因变量(目标值)之间关系进行建模的一种分析方式。特点：只有一个自变量的情况称为单变量回归，多于一个自变量情况的叫做多元回归线性回归用矩阵表示举例那么怎么理解呢？我们来看几个例子期末成绩：0.7×考试成绩+0.3×平时成绩房子价格 = 0.02×中心区域的距离 + 0.04×城市一氧化氮浓度 + (-0.12×自住房平均房价) + 0.254×城镇犯罪率上面两个例子，

2025-01-03 16:00:45 399

原创预测facebook签到位置

本次比赛的目的是预测一个人将要签到的地方。为了本次比赛，Facebook创建了一个虚拟世界，其中包括10公里*10公里共100平方公里的约10万个地方。对于给定的坐标集，您的任务将根据用户的位置，准确性和时间戳等预测用户下一次的签到位置。数据被制作成类似于来自移动设备的位置数据。请注意：您只能使用提供的数据进行预测。数据介绍：对于数据做一些基本处理（这里所做的一些处理不一定达到很好的效果，我们只是简单尝试，有些特征我们可以根据一些特征选择的方式去做处理）1 缩小数据集范围 DataFrame.qu

2025-01-03 15:53:23 439

原创交叉验证，网格搜索

交叉验证：将拿到的训练数据，分为训练和验证集。以下图为例：将数据分成4份，其中一份作为验证集。然后经过4次(组)的测试，每次都更换不同的验证集。即得到4组模型的结果，取平均值作为最终结果。又称4折交叉验证。通常情况下，有很多参数是需要手动指定的（如k-近邻算法中的K值），这种叫超参数。但是手动过程繁杂，所以需要对模型预设几种超参数组合。每组超参数都采用交叉验证来进行评估。最后选出最优参数组合建立模型。

2025-01-03 15:48:39 1023

原创 KNN算法总结

惰性学习类别评分不是规格化

2025-01-03 15:45:48 274

原创鸢尾花种类预测—流程实现

Iris数据集是常用的分类实验数据集，由Fisher, 1936收集整理。Iris也称鸢尾花卉数据集，是一类多重变量分析的数据集。关于数据集的具体介绍：KNeighborsClassifier的使用【知道】algorithm（auto,ball_tree, kd_tree, brute） -- 选择什么样的算法进行计算。

2025-01-03 15:44:32 863

原创特征工程-特征预处理

翻译过来：通过一些转换函数将特征数据转换成更加适合算法模型的特征数据过程通过对原始数据进行变换把数据映射到(默认为[0,1])之间注意最大值最小值是变化的，另外，最大值与最小值非常容易受异常点影响，所以这种方法鲁棒性较差，只适合传统精确小数据场景。怎么办？通过对原始数据进行变换把数据变换到均值为0,标准差为1范围内在已有样本足够多的情况下比较稳定，适合现代嘈杂大数据场景。什么是特征工程【知道】定义通过一些转换函数将特征数据转换成更加适合算法模型的特征数据过程!

2025-01-03 15:38:35 1119

原创鸢尾花种类预测--数据集介绍

加载获取流行数据集获取小规模数据集，数据包含在datasets里获取大规模数据集，需要从网络上下载，函数的第一个参数是data_home，表示数据集下载的目录,默认是 ~/scikit_learn_data/load和fetch返回的数据类型datasets.base.Bunch(字典格式)data：特征数据数组，是 [n_samples * n_features] 的二维 numpy.ndarray 数组。

2025-01-03 15:28:57 803

原创 KNN-kd树

根据KNN每次需要预测一个点时，我们都需要计算训练数据集里每个点到这个点的距离，然后选出距离最近的k个点进行投票。当数据集很大时，这个计算成本非常高，针对N个样本，D个特征的数据集，其算法复杂度为O（DN²）**kd树：**为了避免每次都重新计算一遍距离，算法会把距离信息保存在一棵树里，这样在计算之前从树里查询距离信息，尽量避免重新计算。其基本原理是，**如果A和B距离很远，B和C距离很近，那么A和C的距离也很远。**有了这个信息，就可以在合适的时候跳过距离远的点。

2025-01-03 15:05:40 1125

原创 1.4 k值的选择

K值选择问题，李航博士的一书「统计学习方法」上所说：

2025-01-03 14:52:50 295

原创 1.3 距离度量

1.3 距离度量。

2025-01-03 14:47:47 797

原创 k近邻算法api使用

Python语言的机器学习工具Scikit-learn包括许多知名的机器学习算法的实现Scikit-learn文档完善，容易上手，丰富的API目前稳定版本0.19.1。

2025-01-03 14:06:24 382

原创 K-近邻算法概念简介

如果一个样本在特征空间中的k个最相似（即特征空间中最邻近）的样本中的大多数属于某一个类别，则该样本也属于这个类别。1）计算已知类别数据集中的点与当前点之间的距离2）按距离递增次序排序3）选取与当前点距离最小的k个点4）统计前k个点所在的类别出现的频率5）返回前k个点出现频率最高的类别作为当前点的预测分类。

2025-01-02 18:50:23 281

原创 gitbook安装部署

在浏览器输入地址：http://localhost:4000，localhost可更改为服务器的IP地址，下面为添加相关目录后显示的内容；gitbook启动后，会生成浏览器访问的地址，可通过浏览器访问gitbook内容，默认为：http://localhost:4000。5)建立软链接(为node和npm建立软链接，确保node和npm命令能直接使用）1）新建目录gitbook，用于存放gitbook文件。2）建立软链接（为gitbook建立软链接）1）安装gitbook-cli。3）启动gitbook。

2024-12-17 13:42:34 439

3dhp-testset-bySub.pkl，用于姿态识别

data-2d-h36m-gt.npz

data-3d-h36m

空空如也