
数据挖掘、机器学习、深度学习笔记文章
文章平均质量分 97
理论+代码+实践
月~时光之笛
本人知乎账号:时光之笛。
硕士就读专业研究方向是关于正倒向随机微分方程的,研究生期间发表两篇Sci论文,也参加过一些数据建模大赛并得到相应奖项。本人现在一家生信公司担任数据挖掘师。
展开
-
多种方法对建模数据做特征选择
特征选择和特征提取都属于降维,就是试图去减少特征数据集中的属性(或者称为特征)的数目,但是两者所采用的方式方法却不同。特征提取的方法主要是通过属性间的关系,如组合不同的属性得到新的属性,这样就改变了原来的特征空间。特征选择的方法是从原始特征数据集中选择出子集,是一种包含的关系,没有更改原始的特征空间。特征提取和特征选择都是从原始特征中找出最有效(同类样本的不变性、不同样本的鉴别性、对噪声的鲁棒性)的特征。...原创 2022-08-04 12:30:14 · 1593 阅读 · 1 评论 -
丰富的统计检验方法
丰富的统计检验方法前言一:假设检验的背景知识简介二:参数检验之 ttt 检验(主要用于样本含量较小(例如n<30n < 30n<30),总体标准差σσσ未知的正态分布)三:参数检验之 zzz 检验(主要用于大样本(例如n>30n > 30n>30),总体标准差σσσ已知的正态分布)四:参数检验之方差分析五:非参数检验之卡方检验六:非参数检验之Kruskal-Wallis检验七:非参数检验之K-S分布检验八:总结前言估计和检验是统计学上最常见的两种分析手段。参数估计主要原创 2022-05-13 10:52:01 · 1376 阅读 · 0 评论 -
基于统计和数值分析方法进行动态去除异常值
基于神经网络进行数据降维前言一:拟合方法原理介绍二:建立异常值检测步骤三:代码实现四:总结前言对于异常值的检验方法很多,针对不同数据集有不同的方法,比如3-sigm原则、聚类方法、箱线图观察法、自编码器观察法等等。本文将介绍一种对于大数据集的有效便捷的异常值检测法,即基于数值分析中拟合技术和统计方法来建立动态规则处理数据中的异常值。岁月如云,匪我思存,写作不易,望路过的朋友们点赞收藏加关注哈,在此表示感谢!一:拟合方法原理介绍拟合方法的由来我们知道,差值曲线必须通过已给的所有数据,这使得我原创 2022-04-23 11:21:58 · 1910 阅读 · 0 评论 -
基于神经网络进行数据降维
基于神经网络进行数据降维前言一:自编码器介绍二:常见神经网络简介三:基于BPNN的自编码降维实验四:基于CNN的自编码降维实验五:总结前言机器学习方法降维可以说非常多了,无论是线性还是非线性,而且各有各的优势存在。本篇文章主要是基于神经网络的自编码技术对数据进行降维,无论是一维特征构成的样本数据(只有长或者宽有数据)还是3维特征构成的数据(图像数据长、宽、高)等都可以通过自编码器进行数据降维。一:自编码器介绍我们简单介绍下什么叫自编码器自编码器(autoencoder, AE)是一类在半监督学原创 2022-04-05 10:43:20 · 6117 阅读 · 3 评论 -
基于Python实现通路富集模型
基于Python实现通路富集模型前言一:超几何分布介绍二:富集原理三:代码计算四:总结前言本文章主要涉及基因功能富集分析的原理解释,统计检验以及最终基于Python代码的整体逻辑实现。富集分析应该算生信里是最常用的分析方法之一了,很多做生信的都是基于R或者Spss等软件,所以这次想用Python来回顾每一步处理任务。一:超几何分布介绍超几何分布时一种离散型概率分布,也许中学就学过最经典的例子:假设一个袋子有10个球,其中红色球6个,白色球4个,那么我一次从袋子中抓取4个,请问这4个球中至少3个是红球原创 2022-02-18 16:19:58 · 633 阅读 · 0 评论 -
时间序列分析的学习与应用(一)
时间序列分析的学习与应用(一)前言一:时间序列分析的一些基础性知识二:相关系数和自相关函数三:白噪声序列四:平稳性检验原理五:实现白噪声检验算法六:编写单位根检验算法七:总结前言接下来几篇的内容,我们系统的学习下时间序列模型相关内容,从自相关系数到检验统计量的解释,从ARIMA模型阶数截尾(拖尾)公式推导到GARCH模型的搭建等等的学习,并结合编写相关代码(或底层编写),最终应用于解决实际问题。这里大概会进行如下几个内容的学习基础知识的学习1.时序概念与平稳性介绍2.相关系数和自相关函数3原创 2021-12-01 14:15:32 · 2022 阅读 · 1 评论 -
ARIMA模型的定阶原理与建模分析
ARIMA模型的定阶原理与建模分析前言一:AR(p)(p)(p)模型的定阶原理前言ARIMA模型是很经典的自回归模型,这篇文章将全面的讲述ARIMA的建模步骤。从定阶原理解释到实际数据代码编写模型来进行回归预测。基于理论推导和代码编写一气呵成!岁月如云,匪我思存,写作不易,望路过的朋友们点赞收藏加关注哈,在此表示感谢!一:AR(p)(p)(p)模型的定阶原理AR模型是一个线性模型,p阶自回归模型的一般表达式为:xt=ϕ0+ϕ1xt−1+ϕ2xt−2+...+ϕpxt−p+εt(#)x_t=\ph原创 2021-12-08 17:09:26 · 8855 阅读 · 6 评论 -
深度运用LSTM神经网络并与经典时序模型对比
时间序列分析之GARCH模型介绍与应用前言一:RNN神经网络底层逻辑介绍二:对于梯度消散(爆炸)的原理解释三:LSTM底层理论介绍sigmoid激活函数的意义四:建模预测存在“右偏移”怎么办!五:改进模型输出六:最终代码七:总结前言RNN(循环神经网络)是一种节点定向连接成环的人工神经网络。不同于前馈神经网络,RNN可以利用内部的记忆来处理任意时序的输入序列,即不仅学习当前时刻的信息,也会依赖之前的序列信息,所以在做语音识别、语言翻译等等有很大的优势。RNN现在变种很多,常用的如LSTM、Seq2Seq原创 2022-01-04 20:06:54 · 1176 阅读 · 0 评论 -
时间序列分析之GARCH模型介绍与应用
时间序列分析之GARCH模型介绍与应用前言一:ARCH模型的相关性质二:ARCH实验过程三:GARCH模型的轮廓介绍四:GARCH实验过程五:总结前言在ARIMA模型中,我们一般假设干扰项的方差为常数,然而在很多情况下,时序波动的干扰项方差并不为常数。因此我们有必要刻画方差(波动率)这一特征来研究时序模型,本篇的(G)ARCH模型就是刻画随时间变化的方差模型。岁月如云,匪我思存,写作不易,望路过的朋友们点赞收藏加关注哈,在此表示感谢!一:ARCH模型的相关性质底层由来我们还是从AR(p)A原创 2021-12-19 22:34:45 · 23877 阅读 · 3 评论 -
基于梯度下降算法自建一种短期有效的自回归模型
底层实现自回归移动模型的权重优化前言一:移动平均模型二:基于自适应滤波思想的权重优化三:代码实现四:实验分析五:总结与展望前言基于时间序列自回归预测模型还是比较多的,简单的有移动平均,灰色预测,AR等等,复杂的有ARIMA,GARCH、LSTM,TCN等等。自回归模型说白了就是“当下的自己”跟“过去的自己”建立回归模型来预测“未来的自己”,它不需要任何其它的自变量,是个易理解与易应用的模型。如果自回归模型想要好的预测效果,那么我们还是希望数据随时间变化是稳定的或缓慢变化的,或者呈周期性季节性变化的短期预原创 2021-09-17 22:49:57 · 406 阅读 · 0 评论 -
聚类数目的多种确定方法与理论证明
聚类数目的多种确定方法与理论证明前言一:确定聚类中心数目的基础方法**二:方法修正**三:实验内容四:关于蒙特卡洛方法的有效性证明五:总结与展望前言上一篇文章我们主要是自己实现了kmeans++算法的底层逻辑,并用于实际数据来筛选异常值。之前也略微提到过,使用聚类模型有个很重要的步骤就是如何开始确定聚类中心的个数,这无论是划分聚类还是层次聚类等,都会涉及的问题,接下来我们就此问题展开讨论。岁月如云,匪我思存,写作不易,望路过的朋友们点赞收藏加关注哈,在此表示感谢!本人的知乎平台欢迎参观交流一:确原创 2021-10-05 12:16:02 · 4762 阅读 · 2 评论 -
底层实现K-means++算法并运用于寻找数据异常点
底层实现K-means++算法并运用于寻找数据异常点前言一:聚类算法的介绍二:实现K-means++算法三:基于K-means++算法进行数据异常值筛选四:总结前言本篇文章,我们基于自己定义的方法而非调用现成模块来解决运用整体维度的数据做异常点筛选问题,并最终对结果进行可视化展示。岁月如云,匪我思存,写作不易,望路过的朋友们点赞收藏加关注哈,在此表示感谢!一:聚类算法的介绍聚类算法大致介绍与分类算法不同,在没有给定划分类别的情况下,根据数据相似度进行样本分组的一种方法。根据原始样本的数据分布特原创 2021-09-25 20:34:54 · 758 阅读 · 0 评论 -
Pca,Kpca,TSNE降维非线性数据的效果展示与理论解释
Pca,Kpca,TSNE降维非线性数据的效果展示与理论解释前言一:几类降维技术的介绍二:主要介绍Kpca的实现步骤三:实验结果四:总结前言本文主要介绍运用机器学习中常见的降维技术对数据提取主成分后并观察降维效果。我们将会利用随机数据集并结合不同降维技术来比较它们之间的效果。降维技术可以说非常常见的有Pca、Kpca、TSNE、LDA、NMF、神经网络自编码技术等,也是各有各的特点,比较深入且工业上不怎么通用的有密度敏感鲁棒模糊核主成分分析算法(DRF-Kpca)等等,有兴趣的朋友可以查查此类相关文章。原创 2021-10-30 22:54:01 · 1483 阅读 · 1 评论 -
NMF降维算法与聚类模型的综合运用
NMF降维算法与聚类模型的综合运用前言一:NMF算法二:NMF算法的使用三:NMF算法与层次聚类的综合使用四:总结前言这一章,我们讨论下另一个比较有效的降维手段:NMF(非负矩阵分解)。NMF降维理论的创建相比于经典的降维理论,略显“年轻”。我们接下来将详细介绍下NMF的原理以及在生产实践中的运算,结合代码和可视化图像来说明这些。岁月如云,匪我思存,写作不易,望路过的朋友们点赞收藏加关注哈,在此表示感谢!一:NMF算法NMF又叫非负矩阵分解,为什么是“非负”?因为非负数据往往在实际中才是有意义的数原创 2021-11-21 13:20:36 · 3645 阅读 · 2 评论 -
两种高效便捷易于实现的异常值处理方法
运用修正版拉依达准则处理实际数据及异常点的进阶处理原创 2021-08-20 09:38:05 · 731 阅读 · 0 评论 -
进阶版拉依达准则(3sigm准则)的提出与应用
异常点对数据特征提取的影响前言一:基于实验说明异常点对模型结果的影响二:异常点的判定三:修正版拉依达准则(3σ准则)四:理论验证五:代码实现六:总结前言在前两次文章中,我们都提到异常点对此特征提取方法(模型)是有一定影响的,为了加强模型的鲁棒性(稳健性),对异常点处理是必不可少的。本文就从浅显案例说明异常点如何在实际中影响模型结果,以及如何处理异常点。PS:欢迎各位朋友与鄙人多多交流,多多关注,鄙人从2021/7/25日起,如没有特殊原因的话会1-2周左右更新一篇文章,写文章目的仅为了多认识新朋友,原创 2021-08-08 19:15:16 · 4094 阅读 · 5 评论 -
多分类情况下的便捷有效特征提取方法的推广
基于模型验证特征提取的有效性以及多分类情况下特征提取方法的推广前言一:基于回归模型验证特征提取的有效性新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入前言在上一篇文章结尾我们提到过:如何将基于距离运算的简便有效特征提取方原创 2021-08-07 09:50:54 · 650 阅读 · 0 评论 -
无监督学习下的便捷有效特征提取手段
无监督学习下的便捷有效特征提取手段![在这里插入图片描述](https://img-blog.csdnimg.cn/3092215b0de248d7b9d3891042afe848.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80MzU3NzI1Ng==,size_16,color_FFFFFF,t_70#pic_center第原创 2021-08-07 09:33:31 · 1186 阅读 · 0 评论