
机器学习相关案例
2034丶
这个作者很懒,什么都没留下…
展开
-
聚类案例
import pandas as pd beer=pd.read_csv('data.txt',sep=' ') # print(bear) #取出四列数据 X=beer[['calories','sodium','alcohol','cost']] #导入kmeans from sklearn.cluster import KMeans km=KMeans(n_clusters=3).fit...原创 2020-05-07 14:26:29 · 839 阅读 · 0 评论 -
朴素贝叶斯:文本数据分析
python文本数据分析 文本数据 停用词 在拿到文章后里面有许多词语大量出现,但是不存在实际意义,比如标点符号,比如:一样,一个,一些,一时,一旦,一起等等。。跟文章主要内容没有什么关系。 Tf-idf :关键词提取 比如:《中国的蜜蜂养殖》: 进行**词频(Term Frequency,缩写为TF)**统计出现次数最多的词 是----“的”“是”“在”----这一类最常用的词(停用词) ...原创 2020-05-06 20:16:47 · 555 阅读 · 0 评论 -
每个Kaggle冠军的获胜法门:揭秘Python中的模型集成
集成方法案例 集成方法可将多种机器学习模型的预测结果结合在一起,获得单个模型无法匹敌的精确结果,它已成为几乎所有 Kaggle 竞赛冠军的必选方案。那么,我们该如何使用 Python 集成各类模型呢?本文作者,曼彻斯特大学计算机科学与社会统计学院的在读博士 Sebastian Flennerhag 对此进行了一番简述。 在 Python 中高效堆叠模型 集成(ensemble)正在迅速成为应用机器...转载 2020-04-29 16:58:05 · 356 阅读 · 0 评论 -
机器学习入门之信用卡欺诈案例
信用卡欺诈检测(二分类问题) 因为数据的隐私问题,很多指标进行了降维处理,特征已经提取完毕。 数据进行分类: 属于0类:正常 属于1类:异常 在数据集中,正常数据大于异常数据。 class里面为0的是正样本,1的是负样本。 样本不均衡时采用的方法 1.过采样 让1样本像0样本一样多。 2.欠采样(下采样) 让0样本像1样本一样少。 Amount样本分布差异过大(标准化或者归一化) #Amount...原创 2020-04-17 00:10:44 · 598 阅读 · 0 评论