从这段文字可以看出医疗大数据的数据挖掘具有重要意义!阿里云提供了以下比赛:
比赛地址:https://tianchi.aliyun.com/competition/entrance/531883/introduction
赛题以预测心电图心跳信号类别为任务,属于统计分类问题!
该数据来自某平台心电图数据记录,总数据量超过20万,主要为1列心跳信号序列数据,其中每个样本的信号序列采样频次一致,长度相等。为了保证比赛的公平性,将会从中抽取10万条作为训练集,2万条作为测试集A,2万条作为测试集B,同时会对心跳信号类别(label)信息进行脱敏。
Tip:匿名特征,就是未告知数据列所属的性质的特征列。
train.csv
testA.csv
计算预测指标:
选手需提交4种不同心跳信号预测的概率,选手提交结果与实际心跳类型结果进行对比,求预测的概率与真实值差值的绝对值。
混淆矩阵(Confuse Matrix)
- (1)若一个实例是正类,并且被预测为正类,即为真正类TP(True Positive )
- (2)若一个实例是正类,但是被预测为负类,即为假负类FN(False Negative )
- (3)若一个实例是负类,但是被预测为正类,即为假正类FP(False Positive )
- (4)若一个实例是负类,并且被预测为负类,即为真负类TN(True Negative )
通过这里计算犯错的概率!!
准确率(Accuracy)
准确率是常用的一个评价指标,但是不适合样本不均衡的情况,医疗数据大部分都是样本不均衡数据。
精确率(Precision)是针对预测结果而言的,其含义是在被所有预测为正的样本中实际为正样本的概率在被所有预测为正的样本中实际为正样本的概率,精确率和准确率看上去有些类似,但是是两个完全不同的概念。精确率代表对正样本结果中的预测准确程度,准确率则代表整体的预测准确程度,包括正样本和负样本。
召回率(Recall)是针对原样本而言的,其含义是在实际为正的样本中被预测为正样本的概率。
宏查准率(macro-P)
宏查全率(macro-R)
宏F1(macro-F1)
微查准率(micro-P)
微查全率(micro-R)----此处不懂
后面是进行代码演示