数据挖掘导论
文章平均质量分 95
数据挖掘导论心得分享
上山打老虎D
计算机系学生
个人主页:https://github.com/Matt-Dong123
联系邮箱:szudyh@qq.com (欢迎交流^_^)
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
基于机器学习与深度学习的金融风控贷款违约预测
1、使用了柱状图,零度矩阵,热度图,皮尔逊系数图等多种方式对数据进行可视化2、使用了多种方式进行了特征工程。对部分特征采用了数据分箱,并选择部分数据做平均编码后选取一定时间范围进行特征交叉。此外,也根据特征的含义构造了新的特征。3、根据群体稳定性指标(Population Stability Index,PSI)挑选特征入模,提高训练速度与准确率4、借助自动学习库,辅助完成模型的挑选5、尝试了多种模型(XGBoost,LightGBM,Catboost,神经网络,决策树,逻辑回归,SVM)进行预测。原创 2022-03-23 19:51:28 · 19285 阅读 · 35 评论 -
数据挖掘导论——综合实验
二手车交易预测实验目的与要求试验环境实验内容及过程一、数据分析1、基础数据分析:2、特征相关性分析:3、特征值重复度分析:4、缺失值统计分析:5、价格分布分析:二、数据预处理1、缺失值处理:2、数值化非数值特征3、异常值处理三、特征工程1、组合匿名特征:2、提取日期信息3、特征的count编码4、日期的特征构造5、特征交叉6、特征编码四、预测模型1、问题分析2、可用模型3、训练模型与预测五、调参并测试六、最终提交结果:实验收获实验目的与要求结合问题理解,描述三种适用于本题的模型。掌握数据挖掘的基本流原创 2022-03-23 18:55:56 · 5938 阅读 · 0 评论 -
数据挖掘导论——分类与预测
数据挖掘导论——分类与预测实验内容背景介绍数据实验要求实验过程一、首先引入数据分析以及模型所需要的库二、进行数据的读取三、进行数据分析1、Sex:性别比例2、PClass:船舱等级3、PClass,Sex:船舱等级与性别4、Age:年龄5、Embarked:登船地点6、Sibsip:兄弟姐妹的数量7、Parch:8、Fare:船票的价格四、数据清洗1、年龄2、Family_size:家庭总人数3、船票价格4、去掉不必要的特征:五、进行建模实验内容背景介绍泰坦尼克号于1909年3月31日在爱尔兰动工建造原创 2022-03-23 18:17:27 · 5925 阅读 · 0 评论 -
数据挖掘导论——可视化分析实验
可视化分析实验商店客流量数据可视化数据来源实验要求:绘制所有便利店的10月的客流量折线图。绘制每类商家10月份的日平均客流量折线图。选择一个商家,统计每月的总客流量,绘制柱状图。选择一个商家,统计某个月中,周一到周日的每天平均客流量,并绘制柱状图。选择一个商家,绘制客流量直方图。选择一个商家,绘制客流量密度图。统计某个月各个类别商店总客流量占该月总客流量的比例,绘制饼图。皮马印第安人糖尿病数据可视化数据来源:http://archive.ics.uci.edu/ml/datasets/Pima+Indian原创 2022-03-23 17:32:58 · 6004 阅读 · 0 评论 -
数据挖掘导论——Python练习
实验2:Python练习编写一个名为collatz()的函数,它有一个名为number的参数,如果输入的参数是质数,那么collatz()就打印出number,如果number不是质数,则打印3*number+1。代码分析测试有两个磁盘文件test1.txt和test2.txt,各存放一行字母,要求把这两个文件中的信息合并(按字母顺序排列,每类字母大写在前,小写在后), 输出到一个新文件test3.txt中。代码分析测试某个公司采用公用电话传递数据,数据是四位的整数,在传递过程中是加密的,加密规则如下:每位原创 2022-03-23 16:34:04 · 2752 阅读 · 0 评论
分享