- 博客(10)
- 收藏
- 关注
原创 pandas task
1.5.2 2. 练习1.5.2.1 【练习一】: 现有一份关于diamonds的数据集,列分别记录了克拉数、颜色、开采深度、价格,请解决下列问题:pd.read_csv(‘data/Diamonds.csv’).head()carat color depth price0 0.23 E 61.5 3261 0.21 E 59.8 3262 0.23 E 56.9 3273 0.29...
2020-04-27 10:36:50
259
原创 pandas
一、文件的读取与写入文件读取:pandas.read_文件格式,eg:pandas.read_csv(’/data.csv’)文件写入:pandas.to_文件格式,eg:pandas.to_csv(‘data/new_table.csv’)#读取df = pd.read_csv('work/table.csv')df.head()#默认查看前五行,想看n行的话就在括号内加数字,如前20...
2020-04-20 22:15:13
347
原创 模型融合
模型融合在机器学习训练完模型之后我们要考虑模型的效率问题,常用的模型效率分析手段有:研究模型学习曲线,判断模型是否过拟合或者欠拟合,并做出相应的调整;对于模型权重参数进行分析,对于权重绝对值高/低的特征,可以对特征进行更细化的工作,也可以进行特征组合;进行bad-case分析,对错误的例子分析是否还有什么可以修改挖掘。模型融合:模型融合就是训练多个模型,然后按照一定的方法集成过个模型,应...
2020-04-04 20:33:32
280
原创 建模调参
建模调参五折交叉验证在使用训练集对参数进行训练的时候,经常会发现人们通常会将一整个训练集分为三个部分(比如mnist手写训练集)。一般分为:训练集(train_set),评估集(valid_set),测试集(test_set)这三个部分。这其实是为了保证训练效果而特意设置的。其中测试集很好理解,其实就是完全不参与训练的数据,仅仅用来观测测试效果的数据。而训练集和评估集则牵涉到下面的知识了。...
2020-04-01 19:37:10
395
原创 数据的特征工程
StratifiedKfold和KFold的区别StratidfiedKfold和KFold交叉验证,都是将训练集分成K份,其中K-1份的训练集,1份的验证集。不过特别的是StratifiedKfold将验证集的正负样本比例,保持和原始数据的正负样本比例相同特征归一化(标准化)在数据挖掘数据处理过程中,不同评价指标往往具有不同的量纲和量纲单位,这样的情况会影响到数据分析的结果,为了消除指标...
2020-03-28 19:56:55
292
原创 数据挖掘-数据探索(EDA)
数据探索 EDA(Exploratory Data Analysis)1.EDA的作用EDA的作用主要在于熟悉并了解数据集,对数据集进行处理,以便接下来机器学习或者深度学习使用了解数据集之后,接下来就是了解数据集中各变量间的相互关系,变量与预测值之间的关系引导数据科学从业者进行数据处理以及后面特征工程的部分,使得数据集的结构和特征集让接下来的预测问题更加可靠完成对于数据的探索性分析,...
2020-03-24 19:30:01
589
原创 【统计机器学习】支持向量机
支持向量机支持向量机是一种二分类模型。它的基本模型是定义在特征空间上的间隔最大的线性分类器,间隔最大使他有别于感知机;支持向量机还包括核技巧,这使他成为实质上的非线性分类器。支持向量机的学习策略就是间隔最大化,可形式化为一个求解凸二次规划的问题,也等价于正则化的合页损失函数最小化问题。当输入空间为欧式空间或离散集合、特征空间为希尔伯特空间时,核函数表示将输入从输入空间映射到特征空间得到特征向量...
2019-09-17 15:54:59
227
原创 【统计学习方法】最大熵模型学习笔记
最大熵模型1.什么是熵最大原理最大熵原理就是概率模型的一个准则。最大熵原理认为,学习概率模型时,在所有可能的概率模型分布中,熵最大的模型是最好的模型。通常用约束条件来确定概率模型的集合,所以,最大熵原理也可以表述在满足约束条件时中取熵最大的模型。例子1:假设随机变量x有5个取值{A,B,C,D,E},要估计各个值的概率P(A),P(B)…P(E).这些概率值满足条件P(A)+P(B)+P...
2019-09-12 11:37:20
542
原创 【论文】Emotion-Cause Pair Extraction: A New Task to Emotion Analysis in Texts 阅读笔记
Basic InformationTitle: Emotion-Cause Pair Extraction: A New Task to Emotion Analysis in Texts List itemAuthors: Rui Xia, Zixiang DingInstitution: Nanjing University of Science and TechnologyConf...
2019-09-11 10:57:31
3022
1
转载 统计学习方法知识点
@[TOC]第一篇博客 转自https://www.cnblogs.com/limitlessun/p/8611103.html阅读目录知识点感知机k近邻法朴素贝叶斯决策树logistic回归和最大熵模型支持向量机提升方法EM算法隐马尔可夫模型(HMM)统计学习方法总结神经网络K-MeansBaggingApriori降维方法引用...
2019-09-03 10:15:10
149
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人