- 博客(26)
- 收藏
- 关注
原创 【机器学习流程】
这是一篇比较概括性的机器学习流程,里面举例了一些简单模型,包括随机森林,决策树和XGBoost等,会慢慢修改增加。在努力学习中!!!
2023-02-10 17:42:14
466
原创 【时间序列预测2】
接上篇时间序列预测,这篇笔记只是简单的时间序列预测模型和大致流程,作为机器学习的一个学习指导。资料来源kaggle上的课程笔记。
2023-02-08 17:13:06
178
原创 【时间序列预测1】
这是一个时间序列预测的笔记,从kaggle比赛的课程归纳而得,讲了时间序列的几大特征:趋势,季节性,周期性。以及使用这些特征来预测模型,讲得非常简单易懂,也是一个比较简单的机器学习案例。
2023-02-02 17:25:33
2105
3
原创 【数据分析3plt绘图】
如何绘制比较好看的统计图,Python中的matplotlib.pyplot很有用,一些基本的统计图的绘制,还有一些美图技巧。会持续更新。
2023-01-17 21:50:18
498
原创 【数据分析1Numpy】
Python中的Numpy库在数据分析中的用法,Python是目前数据分析领域很火的一门工具,知识是不断积累的,一些很好的分析方法都会出现在我的数据分析文件库。
2023-01-13 21:40:36
156
原创 【贝叶斯岭回归】
贝叶斯岭回归是回归模型中的一种概率模型,是机器学习中的一种线性模型。相比普通最小二乘法,贝叶斯岭回归更适合于表现比较差的数据。其正则化参数alpha和gamma的选择对模型效果很重要
2023-01-06 16:20:43
2425
原创 Lasso回归
Lasso回归是一种线性模型,该方法是一种压缩估计。它通过构造一个惩罚函数得到一个较为精炼的模型,使得它压缩一些回归系数,即强制系数绝对值之和小于某个固定值;同时设定一些回归系数为0。也是一种处理复共线性数据的有偏估计。本文同时还介绍了其超参数的选择方法——交叉验证和信息准则,一般选择交叉验证方法。
2023-01-03 17:37:11
5297
原创 数据分析流程(岭回归模型)
本文讲的岭回归模型,接上一篇。主要讲述了系数的比较一定在同一个范围,可以对它们进行标准化处理;在多重线性模型中,解释变量时是条件独立性,也就是保持其他变量不变;相关性强的特征会导致估计的系数不稳定,以及它们对模型因变量的影响不能区分开;通过交叉验证来检查系数的稳定性。
2022-12-29 18:01:56
359
原创 【数据分析流程】
一些数据分析流程总结,先以岭回归为例,包括数据探索,查看数据的分布,相关性分析,有一个小技巧,当出现长尾分布时,可以采用对其取对数的方法,达到正态分布的要求。用one-hot encode处理非二分类的离散型变量。对于分析对比系数的重要性时,一定要把它们的范围划统一才能比较。
2022-12-28 22:59:01
179
原创 【最小二乘法估计】
本文介绍两种线性模型,一种线性回归(用最小二乘法估计参数),一种岭回归。岭回归是一种专用于共线性数据分析的有偏估计回归方法。实质上是一种改良的最小二乘估计法,通过放弃最小二乘法的无偏性,以损失部分信息、降低精度为代价获得回归系数更为符合实际、更可靠的回归方法,对病态数据的拟合要强于最小二乘法。
2022-12-27 18:42:41
1559
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人