- 博客(5)
- 收藏
- 关注
转载 解决数据不平衡问题
一、不平衡数据集的定义所谓的不平衡数据集指的是数据集各个类别的样本量极不均衡。以二分类问题为例,假设正类的样本数量远大于负类的样本数量,通常情况下通常情况下把多数类样本的比例接近100:1这种情况下的数据称为不平衡数据。不平衡数据的学习即需要在分布不均匀的数据集中学习到有用的信息。不平衡数据集的处理方法主要分为两个方面:1、从数据的角度出发,主要方法为采样,分为欠采样和过采样以及对应的一些改进方法。2、从算法的角度出发,考虑不同误分类情况代价的差异性对算法进行优化,主要是基于代价敏感学习算法(Cos
2021-07-04 22:31:10
1206
转载 sklearn常见分类器(二分类)
import pandas as pdimport matplotlibmatplotlib.rcParams['font.sans-serif']=[u'simHei']matplotlib.rcParams['axes.unicode_minus']=Falsefrom sklearn.tree import DecisionTreeClassifierfrom sklearn.model_selection import train_test_splitfrom sklearn.metri
2021-06-12 08:45:54
1534
原创 医学图像python之dicom图像显示
Dicom全称为Digital Imaging and Communications in Medicine,即医学数字成像和通信标准,大部分临床影像都被存储为dicom格式,如MR与PET图像。Dicom文件中除了包含有影像数据外,还囊括了大量机器,患者信息。这些信息被存储在一个个tags or attributes之下。Pydicom包为我们提供了非常简单易用的方法来读取这些文件。具体看下面代码:import pydicomimport matplotlib.pyplot as pltsour
2021-01-09 19:01:37
2038
原创 医学统计python之ROC比较:Delong test
def roc_test_r(targets_1, scores_1, targets_2, scores_2, method='delong'): # method: “delong”, “bootstrap” or “venkatraman” importr('pROC') robj.globalenv['targets_1'] = targets_1 = robj.FloatVector(targets_1) robj.globalenv['scores_1'] = s...
2020-12-30 09:24:07
5081
2
原创 医学统计python之数据相关:欧式距离
使用列表List作为样本点表示的欧氏距离计算方法:import pandas as pdimport numpy as npsource_path = ‘/Users/apple/Desktop/my_excel.xlsx’data = pd.DataFrame(pd.read_excel(source_path))#获取标签列feature_cols = [‘CT’,‘MR’,‘True’]x = data[feature_cols[0]]y = data[feature_cols[1]
2020-12-27 11:19:57
405
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人