
机器学习
机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能。
rubyw
Data Analyst
让我们一起愉快地搞数据分析吧!
展开
-
数据分桶:等宽分箱、等频分箱、分位数分箱,卡方分箱、WOE分箱、机器学习分箱
Python 实现相对复杂,通常需要借助专门的库。原创 2024-08-28 15:57:39 · 2308 阅读 · 0 评论 -
机器学习:多个分类模型建模融合
【代码】机器学习:多个分类模型建模融合。原创 2024-08-12 10:51:45 · 190 阅读 · 0 评论 -
LDA主题分析—情感分析案例
通过以上步骤,我们完成了对投诉内容的情感分析。从数据读取、预处理,到情感分析、结果展示,完整地实现了一个情感分析流程。该流程可以根据具体需求进行调整和扩展,例如使用更高级的情感分析模型(如BERT)来提高分析的准确性。原创 2024-07-02 10:16:59 · 690 阅读 · 0 评论 -
Python实现KNN算法
【代码】Python实现KNN算法。原创 2024-02-21 10:49:21 · 542 阅读 · 0 评论 -
Python实现线性逻辑回归和非线性逻辑回归
【代码】Python实现线性逻辑回归和非线性逻辑回归。原创 2024-02-20 16:29:03 · 745 阅读 · 0 评论 -
Python实现Lasso回归模型
• Tibshirani(1996)提出了Lasso(The Least Absolute Shrinkage and Selectionator operator)算法。• 通过构造一个一阶惩罚函数获得一个精炼的模型;通过最终确定一些指标(变量)的系数为零(岭回归估计系数等于0的机会微乎其微,造成筛选变量困难),解释力很强。• 擅长处理具有多重共线性的数据,与岭回归一样是有偏估计。原创 2024-01-22 16:28:03 · 1056 阅读 · 0 评论 -
Python实现交叉验证法
交叉验证是一种用于评估模型性能和选择超参数的方法。其中,k折交叉验证是最常用的形式之一。它将数据集分为k个相似大小的折(folds),然后执行k次训练-测试过程,每次选择一个不同的折用作测试集,其余折用作训练集。最后,将k次测试的性能指标的平均值作为最终性能指标。进行k折交叉验证,并输出交叉验证的均方误差(MSE)得分。这个得分可以用于评估模型性能。将特征转换为多项式特征,并创建一个多项式回归模型。在scikit-learn库中,可以使用。在这个例子中,我们使用。原创 2024-01-22 16:15:01 · 904 阅读 · 0 评论 -
Python岭回归(Ridge Regression)
【代码】Python岭回归(Ridge Regression)原创 2024-01-22 16:11:07 · 2117 阅读 · 0 评论 -
Python线性回归标准方程
【代码】Python线性回归标准方程。原创 2024-01-22 15:27:38 · 433 阅读 · 0 评论 -
Python多项式回归sklearn
多项式回归是一种回归分析的方法,它通过使用多项式函数来拟合数据。与简单线性回归不同,多项式回归可以更灵活地适应数据的曲线特征,因为它可以包含多个特征的高次项。多项式回归的一般形式为:在实际应用中,可以通过调整多项式的次数来适应不同的数据特征。然而,过高的多项式次数可能导致过拟合,对新数据的泛化能力较差。多项式回归可以通过最小化损失函数来找到最优的回归系数。一种常见的方法是使用最小二乘法。在Python中,可以使用各种库(如NumPy、SciPy和scikit-learn)来实现多项式回归。原创 2024-01-22 15:01:57 · 1014 阅读 · 0 评论 -
Python多元线性回归sklearn
【代码】Python多元线性回归sklearn。原创 2024-01-22 14:29:03 · 925 阅读 · 0 评论 -
python一元线性回归:梯度下降法、损失函数
【代码】python一元线性回归:梯度下降法、损失函数。原创 2024-01-22 14:11:31 · 560 阅读 · 0 评论 -
python:一元线性回归模型案例分析
中国全体居民的消费水平与经济发展数量关系的分析改革开放以来,随着中国经济的快速发展,人民生活水平不断提高,居民的消费水平也在不断增长。研究中国全体居民的消费水平与经济发展的数量关系,对于探寻居民消费增长的规律性,预测居民消费的发展趋势有重要意义。影响居民人均消费水平的因素有多种,但从理论和经验分析,最主要的影响因素应是经济发展水平。从理论上说经济发展水平越高,居民消费越多。被解释变量选择能代表城乡所有居民消费的“全体居民人均年消费水平”(元/人);原创 2024-01-18 14:40:46 · 3428 阅读 · 0 评论 -
Python实现模型持久化和加载方式
1.Bottle Bottle 是一个非常小巧但高效的微型 Python Web 框架,它被设计为仅仅只有一个文件的 Python 模块,并且除 Python 标准库外,它不依赖于任何第三方模块。Bottle 和 Flask 在使用上相似,而且 Flask 的文档资料更全,发布的服务更稳定,因此下面重点以 Flask。框架提供的功能对请求进行相应的处理,并返回给用户,如果返回给用户的内容比较复杂时,需要借助 Jinja2。模板来实现对模板的处理,即将模板和数据进行渲染,将渲染后的字符串返回给用户浏览器。原创 2023-05-23 16:52:03 · 502 阅读 · 0 评论 -
Python案例分析:使用LightGBM算法、随机森林、五折交叉验证进行分类预测
说明:因为评分方式是以有资金需求的中小企业公司户的F-Measure来评估预测结果的好坏,而样本极其不均衡,所以需要通过上采样来调整数据分布,我这里使用了smote方法(考试中时间来不及直接是1的样本×40)如果使用RandomForest,则建议把缺失值填充为-1。2)、黄色部分的字段是有相关性的,比如ck-saveall = ck-savetime ×ck-saveavg,所以可以通过计算填充;3)、ck这个字段和后面带ck字样的字段都有关系,理论上应该后面字段中只要有一个值>0,ck就是1;原创 2023-05-18 15:25:26 · 2645 阅读 · 1 评论 -
财政收入预测分析:时间序列分析
【代码】财政收入预测分析:时间序列分析。原创 2023-05-22 11:43:52 · 522 阅读 · 0 评论 -
某市财政收入预测分析:GM模型+神经网络
这些数据都是统计年鉴上公开的,文中用的是96年至16年的数据原创 2023-05-22 10:55:14 · 463 阅读 · 1 评论 -
Python处理样本不均衡问题
处理样本不均衡的几种方法原创 2023-05-18 10:10:44 · 879 阅读 · 0 评论