
算法案例
文章平均质量分 95
盡盡
这个作者很懒,什么都没留下…
展开
-
数据预处理的分箱操作
数据分箱介绍我们在建立模型前,一般需要对特征变量进行离散化,特征离散化后,模型会更稳定,降低模型过拟合的风险。尤其是采用 logsitic 建立评分卡模型时,必须对连续变量进行离散化。而特征离散化处理通常采用的就是分箱法,数据分箱(也称为离散分箱或分段)是一种数据预处理技术,用于减少次要观察误差的影响,提高泛化性。数据分箱又分为有监督分箱和无监督分箱,是否使用标签进行离散化(分箱)决定了有监督还是无监督的离散化方法。知识点无监督分箱split 分箱merge 分箱无监督分箱这里为了原创 2021-07-18 21:32:32 · 4760 阅读 · 1 评论 -
对COVID-19论文进行自动分类——文献聚合分类实现方案
概述实现步骤:使用自然语言处理(NLP)从每个文档的正文中解析文本。使用术语频率-逆文档频率(TF-IDF)将每个文档实例????????转换为特征向量 feature。使用 t 分布随机近邻嵌入(t-SNE)对每个特征向量进行降维,将相似的文章聚集在二维平面 ????1 中。使用主成分分析(PCA)将数据的维数投影到多个维,这些维将保持 0.95 的方差,同时消除嵌入 ????2 时的噪声和离群值。在 ????2 上应用 k-means 聚类,其中????为 10,以标记 ????1 上的原创 2020-10-26 11:02:53 · 3990 阅读 · 5 评论 -
使用ARIMA进行股票预测
一、ARIMA介绍1、简介 ARIMA模型的全称叫做自回归移动平均模型,全称是(ARIMA, Autoregressive Integrated Moving Average Model)。是统计模型(statistic model)中最常见的一种用来进行时间序列预测的模型。模型十分简单,只需要内生变量而不需要借助其他外生变量。2、模型介绍1.自回归模型(AR) 描述当前值与历史值之间的关系,用变量自身的历史时间数据对自身进行预测。自回归模型必须满足平稳性的...原创 2020-08-05 10:19:31 · 14104 阅读 · 4 评论