
机器学习
Jennie_J
这个作者很懒,什么都没留下…
展开
-
关于评分卡和流失预警
评分卡流程流失预警原创 2019-08-20 17:23:09 · 446 阅读 · 0 评论 -
sns.countplot()函数
sns.countplot()函数以bar的形式展示每个类别的数量例如:plt.figure(figsize=(15,5)) #图的宽和长,单位为inchplt.subplot(121) #subplot(行,列,第几个)**sns.countplot('User_ID',data=data,alpha=0.8) #统计data中‘User_ID’这个特征每种类别的数量**...原创 2019-04-02 22:28:11 · 28688 阅读 · 0 评论 -
sklearn逻辑回归参数中涉及样本不平衡的部分
一、class_weight :分类模型中各种类型的权重,可以不输入,即不考虑权重,或者说所有类型的权重一样。手动输入各个类型的权重:比如对于0,1的二元模型,定义class_weight={0:0.8, 1:0.2},即表示类型0的权重为80%,而类型1的权重为20%.选择balanced:类库根据训练样本量计算权重,表示样本数目越多,权重越小,样本数越少,权重越大。计算方法如下:...原创 2019-03-26 22:30:15 · 5083 阅读 · 0 评论 -
sklearn KFold()
最近实践过程中遇到需要KFold()记录一下,以便日后查阅KFold()在sklearn中属于model_slection模块from sklearn.model_selection import KFoldKFold(n_splits=’warn’, shuffle=False, random_state=None)参数:n_splits 表示划分为几块(至少是2)shuffle...原创 2019-03-18 11:36:55 · 44832 阅读 · 8 评论 -
不平衡样本的处理方法---金融欺诈案例
对于二分类问题,理想的样本应该是50:50但现实中某些场景就是非平衡数据,如癌症检测(癌症患者在人类总数中总是占非常小的比例),金融欺诈(一般来说大家都是守法尊则的良好公民,欺诈一般占小比例)对于不平衡问题,一般将占比小的分类设为1,如欺诈和患癌症不平衡样本的处理方式:(1)样本采样方面:欠采样(减法)过采样(加法)SMOTE(类似与过采样,区别在于采用算法生成新的样本(一般是占比小...原创 2019-03-13 22:25:39 · 966 阅读 · 0 评论 -
机器学习从蛋白序列预测蛋白分类(二)
半路出家学机器学习,先在自己熟悉的领域尝试,每天进步一点点,记录自己成长过程(正式开始前的小叨叨)接(机器学习从蛋白序列预测蛋白分类(一))继续分析三,特征提取其实在(机器学习从蛋白序列预测蛋白分类(一)中已经做过一次特征筛选,即从两个原始文件中提取出sequence和classification信息并整合至一个文件,这里特征提取主要针对蛋白序列。为何要对蛋白序列进行二次特征提取呢?是因为蛋...原创 2019-03-02 23:42:41 · 5567 阅读 · 3 评论 -
机器学习从蛋白序列预测蛋白分类(一)
1,背景与目标:随着测序技术的快速发展,GenBank等数据库中存储了大量基因、蛋白序列信息,其中大部分尚无标注,如何充分利用GenBank等数据库现有数据资源,挖掘数据信息,为精准医疗、药物研发等生物大健康领域提供有价值的信息具有重要意义。目前这方面已有BLAST等生物信息技术可用,这里希望尝试机器学习技术在这方面的应用。2,数据清洗与处理数据来源于Kaggle竞赛(https://www...原创 2019-02-28 18:03:43 · 6520 阅读 · 0 评论