
数学基础
文章平均质量分 52
数学基础
山高月小 水落石出
在广袤的空间和无限的时间中,能与你共享同一颗行星和同一段时光,是我莫大的荣幸。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
State space, 状态空间方法简介
状态空间方法简介原创 2023-01-26 20:37:54 · 725 阅读 · 0 评论 -
Model selection, 模型评价之AIC, AIC(c), BIC
所以当训练模型所用的数据个数相同时,三种准则对不同模型的优选结果相同,只是相对数值会有不同;当不需要使用结果数值来加权,只是对模型排序优选时,用任一种准则都是与其他准则等价的。更好些,因为考虑数据个数的准则优选出的模型更可能避免过拟合,更适合于比较那些需要更多数据的多参数模型,例如基于树的集成类模型和神经网络等。,即log(T)=2时的特殊情况,即BIC是在AIC的基础上考虑了数据个数的广义表达式;当训练数据个数不等,例如比较周序列和日序列的同一种模型时,用BIC和AIC。也是考虑了数据个数的广义表达式。原创 2023-01-26 20:24:17 · 2554 阅读 · 0 评论 -
使用插值方法(scipy.interpolate)和三维数据构造二元函数
自变量保持顺序的方式传入插值函数,所得函数就可以保持原始数据应有的顺序和规律性;如果乱序传入,因为插值函数是按逐个数据点的顺序进行插值,所得函数就可能被切分为很多零散的曲面或超曲面。平滑因子s和样条灵活性kx和ky是插值函数最重要的超参数:s越大,函数越平滑,对数据点的拟合程度就越不是完全拟合;kx,ky越大,函数越灵活,(如kx=ky=1时则为平面插值),但也越可能出现振荡。......原创 2022-08-16 17:44:00 · 1496 阅读 · 2 评论 -
对于单峰函数(有唯一极值的函数),黄金分割法比二分法能用更少的搜索次数找到最优解(最值),这对于目标函数不可导时的最优解搜索很有效。
华罗庚在《优选法》中阐述了在一定条件下使用golden ratio黄金分割法搜索单峰函数的最值,比二分法搜索更快,可用更少的步数找到最值。当目标函数可导时,可使用梯度下降类的方法搜索极值点,但当目标函数不可导时,只能使用这些非梯度类的搜索方法。由下图中推导可知,使用黄金分割向下(即向自变量的减小方向)搜索时,该自变量×(1-φ);使用黄金分割向上(即向自变量的增大方向)搜索时,该自变量×2。使用二分法向下(即向自变量的减小方向)搜索时,该自变量×1/2;使用二分法向上(即向自变量的增大方向)搜索时,该自变量原创 2022-02-14 17:57:21 · 1181 阅读 · 0 评论 -
概率密度直方图(可看作PDF的在步长较大时的近似)与累积分布直方图(可看作CDF的在步长较大时的近似)
- 在概率密度直方图中,取到任一bin中的一个样本的平均概率,等于该箱的高度(纵坐标y值) × 宽度(横坐标间距δx) ÷ 该箱中样本个数(n_samples),而不是等于纵坐标y值;即此时面积表示概率之和,而不是纵坐标y值表示单一样本概率;如图1、图2所示。 - 在累积分布直方图中,取到任一bin中的一个样本的平均概率,等于(该箱的高度(纵坐标y值) -左侧箱的高度)/ 该箱中样本个数;即此时纵坐标y值表示概率,但为累计概率;如图3、图4所示。 - 当箱的个数等于样本总数,即每个箱中只有一个样本时原创 2021-08-14 23:12:13 · 9481 阅读 · 0 评论 -
对倒数第二层级及较高层级求样本的统计量时,应直接从最低层级取数计算,而不应逐层计算统计量。
说明:直接从最低层级取样本计算统计量,例如取效应系数、精确度、销量等计算各层级的算术平均数时,各样本的权重是相等的,均为1/n;若逐层级求均值的均值,则会改变各样本的权重,使样本量越少的类别中,各样本所占权重越大,样本量越大的类别中,各样本所占权重越小;但这可能不符合实际情况,至少是没有逻辑的,或者说为什么小类别中样本要占大权重,大类别中样本要占小权重,如果是,应占怎样的权重?具体来说,当只有三个层级时,若中间层级只有两类,则是倍数关系,例如A类有8个样本,B类有2个样本,则A类中各样本权重为1/16,B原创 2021-07-19 11:23:10 · 173 阅读 · 0 评论 -
使用插值方法(scipy.interpolate)和二维数据构造一元函数
通常情况下,当拥有较多数据点时,可构造具有某些特性的带未知参数的函数,采用拟合方法来近似出表达这些数据规律的函数。但当数据点在待求空间中分布较稀疏时,或对待求函数的形态特征、连续性光滑性等已知时,可采用插值(或分段插值)构造出表达该规律的函数。scipy.interpolate中最常用和全面的一维插值方法是interp1d,但本文采用了CubicSpline,因其可以自定义插值函数起止点处的一阶导数或二阶导数(bc_type),使函数形态特征在某些局部更可控。import numpy as npfro原创 2021-04-28 14:42:10 · 1636 阅读 · 2 评论 -
对于对数变换(log transform)的一些理解
1. ln(1/x) + lnx = ln(x^(-1)) + lnx = -lnx + lnx = 0即对一个数(如x)取对数,与其倒数(1/x)取对数,互为相反数。2. 若要比较两个函数在某区间内变化的相对快慢,可对两个函数做减法,构造一个目标函数,利用求导,根据目标函数的因变量随自变量的变化情况,来判断作为被减数的函数和作为减数的函数的变化的相对快慢。原创 2020-11-19 17:20:30 · 4576 阅读 · 0 评论 -
一些常用的判断预测、拟合、回归的精度评价函数和相关性评价函数
import pandas as pdimport matplotlib.pyplot as pltimport numpy as npimport randomimport seaborn as snsfrom sklearn import metricsfrom statsmodels.tools import eval_measuresfrom scipy import statsimport pandas as pdfrom warnings import filterwarni.原创 2020-11-04 15:31:32 · 7146 阅读 · 2 评论 -
对简单指数平滑方法(SES)的讨论——当进行加权的真实值与预测值不同期时
1简单平滑方法中“下一期预测值等于当期真实值与当期预测值的加权值”。如果“下一期预测值等于当期真实值与上一期预测值的加权值”,则将损失掉1/2的真实值信息;即当等号右边进行加权的预测值项比真实值项滞后一期时,则只使用了1/2的真实值信息。当预测值比真实值滞后两期时,只使用了1/4的真实值信息,损失3/4的信息。当预测值比真实值滞后n期时,只使用了(1/2)**n期数的真实值,损失1-(1/2)*...原创 2020-04-22 11:44:34 · 1476 阅读 · 0 评论 -
所有能找到反函数的目标函数,一定能够将原目标函数的自变量显式地表达出来,重新构造目标函数;当新目标函数比原目标函数关于各自的自变量更简单时,则可减小做梯度下降的计算量。
1.概述虽然绝大多数机器学习的最终目标函数很复杂,特别是神经网络的最终目标函数,无比复杂;但是单独考察有些神经元或者神经元中某部分等最终目标函数中一些小单元的目标函数,可能是通用经典函数,如sigmoid、tanh等。如果能找到这些经典函数的反函数,就一定能将它们的自变量提取出来,重新构造这些小单元的目标函数,减少做梯度下降时的计算量。这是因为对因变量做梯度下降的计算量一定比对其自变量做梯度下降时的计算量大,因变量相当于对自变量再做一次复合函数,除了y=k·x这种因变量y和自变量x属于同一计算复杂度的函.原创 2020-09-23 15:30:39 · 706 阅读 · 0 评论 -
平均绝对误差(MAE)、对数平均绝对误差(LMAE)、指数平均绝对误差(EMAE)用法的不同与相似之处
import numpy as npimport pandas as pdimport matplotlib.pyplot as pltfrom scipy.stats import pearsonrfreq = 'D't0 = '2020-01-01'data_length = 7*10num_ts = 3period = 7fit_series, origin_series = [], []time_ticks = np.array(range(data_length))ind原创 2020-09-18 17:54:24 · 13234 阅读 · 0 评论 -
回归问题:采用SSE作目标函数去拟合一元一次、二元一次、n 元一次、n 元 n 次函数来构造损失函数,并可做梯度下降得到局部最优解(即普通最小二乘法 OLS)
回归问题:采用最小二乘法拟合多元多次函数来构造损失函数第一张图是当模型为一元一次函数时的情况,以及其loss函数(二元二次函数)的图像是如何由函数的子项形成的,以及二元二次函数梯度的不同对学习率的影响。一般来说采用全量梯度下降时函数图像最陡,批量梯度下降次之,随机梯度下降或者说逐样本梯度下降最缓。第二张图是采用逐样本梯度下降的情况。第三张图是模型为二元一次函数时的情况,这时其loss函数...原创 2018-10-14 14:16:33 · 5071 阅读 · 2 评论 -
多元函数驻点性质的判断方法,牛顿法进行梯度下降的公式,多元函数凸性的判断方法。
首先介绍矩阵的迹(trace)的概念:如果一个矩阵是方阵,那它的迹tr(A)等于对角线的元素之和。多元函数判断驻点性质的方法:找到多元函数jacobian向量(即目标函数对自变量的一阶偏导数向量)为0的那些点,即驻点;将各驻点带入Hessian矩阵(即目标函数对各自变量的二阶偏导数组成的对称方阵,若有n个自变量,则Hessian矩阵为n×n),计算其行列式det(Hf):若det(Hf)<0,则该驻点是鞍点;若det(Hf)=0,则无法判断该驻点是极小值点、极大值点、还是鞍点;若..翻译 2020-08-04 21:14:15 · 6378 阅读 · 4 评论 -
原函数与导函数的关系,以及驻点处二阶导函数大于、小于、等于零时,原函数取极小值、极大值或鞍点的情况。
由图①可知,当一阶导函数在某点(即驻点)处为0,二阶导函数在该点处小于0时,原函数在该驻点处取极大值;由图②可知,当一阶导函数在某点(即驻点)处为0,二阶导函数在该点处大于0时,原函数在该驻点处取极小值;由图③④可知,当一阶导函数在某点(即驻点)处为0,二阶导函数在该点处也为0,且以该点加减一个非常小的δx得到两点,二阶导函数在这两点处的值异号时,该驻点为原函数的鞍点;由图⑤可知,当一阶导函数在某点(即驻点)处为0,二阶导函数在该点处也为0,且以该点加减一个非常小的δx得到两点,二阶导函数在这两...原创 2020-07-28 22:29:57 · 12590 阅读 · 3 评论 -
几何平均详解,及其与算术平均、调和平均、均方根的关系
2. 几何平均与算术平均的转换关系(附):例:假定某地储蓄年利率(按复利计算):5%持续1.5年,3%持续2.5年,2.2%持续1年。求此5年内该地平均储蓄年利率。打印结果:用几何级数计算平均年利率的误差: -2.220446049250313e-16用算术级数计算平均年利率的误差: 3.9880648729242933当yi=0时,上式为各点的四种平均数;当yi≠0时,上式为各残差点的四种平均数。打印结果:[1.86470298 1.61571436 1.54136216]调和平均:1.66原创 2020-07-15 16:01:20 · 20986 阅读 · 0 评论 -
拟合函数未知数个数与用于拟合的序列点数的关系
以二元一次函数为例(a、b为未知数),当序列点数为1个点或2个点,即序列点数小于拟合函数未知数个数或大于等于拟合函数未知数个数时,用最小二乘法构造目标函数,求其驻点,得到最优的拟合函数系数:从上图中可以看到,当拟合函数有两个系数,而只有一个点可用于拟合时,虽然在求解最优系数时,仍有两个偏导数方程,但这两个方程线性相关,其实只有一个方程是有效的,因为只有一个点进行拟合,所以这时系数a、b无解或有无穷多解。当有两个点用于拟合时,这两个方程线性无关,系数矩阵行满秩,这时a、b有唯一解。下面以pyth.原创 2020-07-02 12:00:12 · 2256 阅读 · 0 评论 -
对多条序列做加权得到一条新序列,使其逼近某一特定序列。目标函数采用SSE,并给出目标函数的jacobian向量和hessian矩阵,可提升梯度下降的速度和精度。
原创 2019-07-09 19:31:07 · 209 阅读 · 0 评论 -
惩罚函数法迭代过程的本质及其他最优化方法中的一些概念
简单罚函数法和单参数精确罚函数法都是逐渐“淹没”可行解;而双参数精确罚函数法在“淹没”可行解的同时,移动可行解。下图为简单罚函数法迭代过程示意图。下图是罚函数法与拉格朗日法的关系:可微分函数的凸性极小值点的必要条件极小值点的充分条件最优解的存在性二次函数的一般表达式二分搜索法等间隔搜索法牛顿下降法共轭方向最后,梯度(的正方向)是函数沿其变化率增大最...原创 2018-10-26 11:16:22 · 2086 阅读 · 0 评论 -
函数图像变换的规律,以一元函数和二元函数为例来说明,对多元函数同样适用。
规律:(1)1.1 自变量x乘以一个大于1的数,图像沿x轴压缩,因为现在x不需要走得那么远,就能达到原来的函数值;1.2 x乘以一个(0,1)之间的数,图像沿x轴伸展,因为现在x需要走得更远,才能达到原来的函数值;1.3 x乘以一个小于-1的数,图像沿y轴旋转并沿x轴压缩;1.4 x乘以一个(-1,0)之间的数,图像沿y轴旋转并沿x轴伸展。(2)2.1 因变量y乘以一个大于1的数,图像沿y轴压缩...原创 2018-10-16 21:59:17 · 3329 阅读 · 0 评论 -
用泰勒展开去逼近函数
syms x;s = taylor(sin(x),‘order’,100);ezplot(s,[-50,50]);syms x;s = taylor(sin(x),‘order’,10);ezplot(s,[-6,6]);从以上两图可以看出,泰勒级数展开的项数越多,就能在越宽的自变量取值范围内准确地逼近原函数;反之,只能在较窄的自变量范围内逼近函数。所以,若想用泰勒展开去求解离已知...原创 2018-10-26 12:01:00 · 4600 阅读 · 3 评论 -
对用乘法法则求导的图形理解,及做数值微分时需要注意的情况;以因变量是两项相乘(f*g)、自变量只有一元(x)为例。
求导数乘法法则的解析表达式,是省略了一阶无穷小量dgdf/dx的形式。这样省略是可以的,因为d表示对后面的变量取无穷小,所以dgdf/dx是个一阶无穷小量,它便等于零。但是用乘法法则做数值微分时,一阶无穷小量dg*df/dx的数值形式ΔgΔf/Δx是否可以忽略,就要具体情况具体分析,因为除了零之外,数值计算中不存在真正的无穷小量。另外,在程序中写计算式的时候尽量写成简化形式,即程序的代码最好是...原创 2018-10-26 10:41:01 · 1681 阅读 · 2 评论