- 博客(6)
- 收藏
- 关注
原创 Task2 EDA
了解训练集和测试集数据概况简单观察数据```pythondata.head().append(data.tail())data.shape```数据总览data.describe() #查看统计量及数据分布情况data.info() #查看每个字段的数据类型以及缺失情况查看数据缺失与异常data.isnull().sum() #查看每列缺失情况查看分布data['y'].value_counts()data['y'].skew() #偏度data['y'].kurt()
2021-03-20 02:37:54
208
原创 Task1 赛题理解及baseline
赛题地址背景赛题以医疗数据挖掘为背景,要求使用提供的心跳信号传感器数据训练模型,完成预测心电图心跳信号类别的多分类任务。赛题数据数据来源:某平台心电图数据记录数据量:总数据量20万+,训练集10万,测试集A2万,测试集B2万数据形式:时间序列数据,每条数据采集频次相同,长度相等字段表字段描述id心跳信号的唯一标识heartbeat_signals心跳序号序列label心跳信号类别(0、1、2、3)测评标准需提交4种不同心跳信号的预测概率,求预
2021-03-14 20:57:26
368
原创 利用python验证中心极限定理
中心极限定理说的是从服从任意分布中的总体中抽取n个样本,这个过程重复进行m次,这m个样本均值服从正态分布。import numpy as npimport matplotlib.pyplot as plt#假设总体服从均匀分布data = np.random.randint(1,10,1000) #进行6000次取样means = []for i in range(6000): ...
2020-04-13 11:40:35
1025
原创 集成学习要点总结
集成学习需要解决的两个重要问题:如何得到若干个弱学习器bagging:并联boosting:串联集合策略对弱学习器预测结果进行逻辑处理:投票、平均将若学习器的预测结果作为特征:stacking、blending关于stacking和blending可见 模型融合...
2020-04-12 23:32:49
193
原创 熵、条件熵、互信息、相对熵、交叉熵、信息增益、Gini系数之间有什么关系
一直以来对信息论中相关的概念总是一知半解,查阅了相关资料,结合自己之前的笔记,总算明白了个七七八八。正式介绍之前我们有必要了解几个概念:随机变量,事件,概率分布。简单来说,随机变量X={x1,x2,...,xn}X = \{x_1,x_2,...,x_n\}X={x1,x2,...,xn},在机器学习中我们通常叫它特征,其中的一个水平xix_ixi就是一个事件,而一个随机变量会服从概率...
2019-12-05 14:49:35
562
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人