
数据挖掘实战
空腹熊猫
普通后台开发,喜欢看源码,对机器学习深度学习感兴趣
展开
-
数据挖掘实战:二手车交易价格预测之模型融合
数据挖掘实战:二手车交易价格预测之模型融合内容介绍模型融合是比赛后期一个重要的环节,大体来说有如下的类型方式。简单加权融合:回归(分类概率):算术平均融合(Arithmetic mean),几何平均融合(Geometric mean);分类:投票(Voting)综合:排序融合(Rank averaging),log融合stacking/blending:构建多层模型,并利...转载 2020-04-04 21:16:41 · 806 阅读 · 0 评论 -
数据挖掘实战:二手车交易价格预测之模型调参
本文接零基础入门数据挖掘的特征工程篇,讲述各种模型以及模型的评价和调参策略线性回归模型:线性回归对于特征的要求;处理长尾分布;理解线性回归模型;模型性能验证:评价函数与目标函数;交叉验证方法;留一验证方法;针对时间序列问题的验证;绘制学习率曲线;绘制验证曲线;嵌入式特征选择:Lasso回归;Ridge回归;决策树;模型对比:常用线性模型;常...转载 2020-04-01 21:28:49 · 796 阅读 · 0 评论 -
数据挖掘实战:特征工程python实战
特征工程是数据科学和机器学习中的重要技巧,对机器模型性能和EDA(exploratory data analysis)的质量有重要影响。本文介绍几种特征工程技巧详见 notebook什么是特征工程使用领域知识来创造特征,使得机器学习算法发挥作用从原始数据提取特征以转换为算法需要的格式需要领域知识、数学和编程技巧数据集本文使用贷款违约预测数据和送货平台数据,可直接参考 noteb...转载 2020-03-29 10:07:35 · 436 阅读 · 0 评论 -
数据挖掘实战:二手车交易价格预测之特征工程
特征工程用于对特征进行进一步分析,并对数据进行处理常见特征工程包括:异常处理:通过箱线图(或 3-Sigma)分析删除异常值;BOX-COX 转换(处理有偏分布);长尾截断;特征归一化/标准化:标准化(转换为标准正态分布);归一化(抓换到 [0,1] 区间);针对幂律分布,可以采用公式:数据分桶:等频分桶;等距分桶;Best-KS 分桶(类似利用基尼指数进行二分类);...转载 2020-03-28 17:59:01 · 594 阅读 · 0 评论 -
数据挖掘实战:EDA(Exploratory Data Analysis)数据探索分析
EDA的价值主要在于熟悉数据集,了解数据集,对数据集进行验证来确定所获得数据集可以用于接下来的机器学习或者深度学习使用。载入各种数据科学以及可视化库#coding:utf-8#导入warnings包,利用过滤器来实现忽略警告语句。import warningswarnings.filterwarnings('ignore')import pandas as pdimport num...转载 2020-03-23 21:13:30 · 937 阅读 · 0 评论 -
数据挖掘实战:二手车交易价格预测
赛题数据数据来自某交易平台的二手车交易记录,总数据量超过40w,包含31列变量信息,其中15列为匿名变量。从中抽取15万条作为训练集,5万条作为测试集A,5万条作为测试集B,同时会对name、model、brand和regionCode等信息进行脱敏。字段表FieldDescriptionSaleID交易ID,唯一编码name汽车交易名称,已脱敏regDa...转载 2020-03-21 07:46:02 · 13049 阅读 · 0 评论 -
datacastle 比赛:AI战疫·小分子成药属性预测大赛
比赛入口任务根据小分子的属性特征,预测小分子在人体内清除率指标(即数据中的Label字段)。训练数据>> df.head<bound method NDFrame.head of ID Molecule_max_phase Molecular weight RO5_violations AlogP \0 1003...原创 2020-03-11 20:06:41 · 1033 阅读 · 1 评论 -
数据挖掘实战:数据预处理之缺失值处理
kaggle的titanic 比赛不少题解有标准的处理流程,这里参考:Kaggle Titanic 生存预测 -- 详细流程吐血梳理尝试提取常用的缺失值处理方法这里还是借助google colab 来学习读取数据import pandas as pddata = pd.read_csv('data/train.csv')data .info()Age、Cabin、Embar...转载 2020-03-02 08:43:37 · 1484 阅读 · 0 评论 -
数据挖掘实战:员工离职预测(训练赛)
赛题来自:datacastle任务从给定的影响员工离职的因素和员工是否离职的记录,建立一个逻辑回归模型预测有可能离职的员工数据数据主要包括影响员工离职的各种因素(工资、出差、工作环境满意度、工作投入度、是否加班、是否升职、工资提升比例等)以及员工是否已经离职的对应记录。主要字段说明Age:员工年龄 Attrition:员工是否已经离职,1表示已经离职,2表示...原创 2020-03-01 22:34:08 · 3460 阅读 · 2 评论 -
数据挖掘实战:汽车销售业偷漏税识别
案例来自《python数据分析与挖掘实战》数据集可以到天池下载背景问题企业偷漏税泛滥,影响国家经济基础 汽车销售业,少开发票、少计收入、保修索赔款不及时确认等偷漏税行为目标根据汽车销售行业纳税人的各项经营指标,建立模型,识别偷漏税的企业数据分析已知数据处理流程类似:数据挖掘实战:电力窃漏电用户自动识别准备工作数据集下载:python_d...原创 2020-03-01 16:29:28 · 4100 阅读 · 1 评论 -
数据挖掘实战:电力窃漏电用户自动识别
案例来自《python数据分析与挖掘实战》1、准备工作数据集下载:python_data_analysis_and_mining_action代码练习平台:google colab上传数据到google colab:上传数据方法或者直接将数据集导入到 colab中来:github数据导入colab2、数据缺失值处理#-*- coding: utf-8 -*-#...转载 2020-02-29 19:06:01 · 5100 阅读 · 4 评论