
数据挖掘
努力!才能被爱慕~
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
西瓜书 第六章 支持向量机
6.1 试证明样本空间中任意点x到超平面(w,b)的距离为式6.2 6.2试使用LIBSVM,在西瓜数据集3.0a上分别用线性核和高斯核训练一个SVM,并比较其支持向量的差别 参考:LIBSVM 在 python 环境下的使用【https://blog.youkuaiyun.com/qq_37691909/article/details/85623326】 用线性核、高斯核训练SVM【https://blog.youkuaiyun.com/qdbszsj/article/details/79124276】 使用LIBSVM经过训原创 2021-07-30 00:30:30 · 878 阅读 · 0 评论 -
西瓜书 第五章 神经网络
神经元模型 激活函数: 1.阶跃函数 2.Sigmoid 3.Relu 4.tanh 感知机与多层网络 误差反向传播 1.逐层求偏导 2.Sigmoid的导数 BP 神经网络易遭受过拟合,解决策略: Early Stopping Regularization,可以在误差函数中增加权重的正则项 全局最小与局部极小 采取不同初始化,选取最优局部最小 模拟退火 使用 SGD,引入随机因素 ...原创 2021-07-25 22:58:25 · 384 阅读 · 0 评论 -
Task2 数据分析
赛题:零基础入门数据挖掘 - 零基础入门金融风控之贷款违约 目的: EDA价值主要在于熟悉了解整个数据集的基本情况(缺失值,异常值),对数据集进行验证是否可以进行接下来的机器学习或者深度学习建模. 了解变量间的相互关系、变量与预测值之间的存在关系。 为特征工程做准备 * 读取数据 利用pandas库 第一种:使用with open方法 第二种:使用csv.reader方法 第三种:使用pd.read_csv方法 代码: # 1.with open方法 with open("train.csv原创 2020-09-18 17:42:23 · 177 阅读 · 0 评论 -
Task5 模型融合
具体内容见链接 https://tianchi.aliyun.com/notebook-ai/detail?spm=5176.12586969.1002.3.1cd8593aw4bbL5&postId=95535 模型融合常用的方法有三个 1.简单加权融合,属于结果层面的融合 2.stacking/blending 3.boosting/bagging ...原创 2020-04-04 21:53:21 · 97 阅读 · 0 评论 -
Task4:建模与预测
建模调参 一、基础知识 1. 线性回归模型 线性回归对于特征的要求 特征符合线性行和可加性。假设因变量为Y,自变量为X1,X2,则回归分析的默认假设为Y=b+a1X1+a2X2+ε。 线性性:X1每变动一个单位,Y相应变动a1个单位,与X1的绝对数值大小无关。可加性:X1对Y的影响是独立于其他自变量(如X2)的。 特征之间应相互独立。 处理长尾分布 理解线性回归模型 线性回归五大假设: 1)线性性...原创 2020-04-01 20:44:02 · 170 阅读 · 0 评论 -
Task3 特征工程
特征工程 赛题:零基础入门数据挖掘 - 二手车交易价格预测 地址: https://tianchi.aliyun.com/competition/entrance/231784/introduction?spm=5176.12281957.1004.1.38b02448ausjSX 特征工程 1 时间特征处理 时间特征是’regDate’, ‘creatDate’,我进行年月日的提起 from t...原创 2020-03-28 21:41:56 · 141 阅读 · 0 评论 -
Task2:数据的探索性分析(EDA)
二手车价格预测 数据初测试 使用的相关函数集 head() shape():载入训练集和测试集数据 describe() info() sum(), .mean():数据总览,了解每个统计量的均值,方差,各分位数和数据类型。 isnull() missingno库:查找数据缺失值和异常值并处理 拟合预测值分布,(简单的可以使用非参数估计),对于偏态分布,一般可进行对数转换,另外可查...原创 2020-03-25 00:15:01 · 116 阅读 · 0 评论 -
Task1-数据挖掘入门学习
数据挖掘路径—探索性数据分析(EDA) 数据挖掘学习大致路径 1.EDA目标 1.EDA的价值主要在于熟悉数据集,了解数据集,对数据集进行验证来确定所获得数据集可以用于接下来的机器学习或者深度学习使用。 2.当了解了数据集之后我们下一步就是要去了解变量间的相互关系以及变量与预测值之间的存在关系。 3.引导数据科学从业者进行数据处理以及特征工程的步骤,使数据集的结构和特征集让接下来的预测问题更加可...原创 2020-03-22 22:58:04 · 108 阅读 · 0 评论