- 博客(32)
- 收藏
- 关注
原创 机器学习算法竞赛系列二 之数据探索+特征工程
数据探索可以分为三个部分:首先是赛前数据探索(即数据初探),帮助我们对数据有个整体性的认识,并发现数据中存在的问题,比如缺失值、异常值和数据冗余等;其次是竞赛中的数据探索,通过分析数据发现变量的特点,帮助提取有价值的特征,这里可以从单变量、多变量和变量分布进行分析;最后是模型的分析,可以分为特征重要性分析和结果误差分析,帮助我们从结果发现问题,并进一步优化。
2023-11-16 22:53:13
338
原创 Self-Attention与Multi-head Self-Attention
学习来源:https://blog.youkuaiyun.com/qq_37541097/article/details/118242600。
2023-08-29 14:12:47
215
原创 训练营第三期笔记一
初赛公开数据包含10296个样本,其中7833个样本为健康样本。每一个样本提供485512个位点的甲基化数据、年龄与患病情况。抽取80%作为训练样本,20%作为测试样本。
2023-08-17 13:50:23
198
1
原创 聚类分析基础
n_clusters是KMeans中的k,表示着要分几类。这是KMeans当中唯一一个必填的参数,默认为8类,但通常聚类结果会是一个小于8的结果。
2023-05-22 17:06:26
1313
1
原创 特征工程-特征选择
降维之外的所有特征选择的方法。过滤法更快速,但更粗糙。包装法和嵌入法更精确,比较适合具体到算法去调整,但计算量比较大,运行时间长。当数据量很大的时候,优先使用方差过滤和互信息法调整,再上其他特征选择方法。使用逻辑回归时,优先使用嵌入法。使用支持向量机时,优先使用包装法。迷茫的时候,从过滤法走起,看具体数据具体分析。
2023-05-21 15:56:06
1146
1
原创 随机森林在乳腺癌数据集上的调参案例
适合用网格搜索的参数:知道范围,或者说知道随着取值的变化模型怎么变化。适合先用学习曲线得到一个小区间的参数。
2023-05-15 15:42:21
139
1
原创 基于决策树的泰坦尼克号幸存者预测
np.linspace(0,0.5,20) 生成有顺序排列的随机的0-0.5的20个数。网格搜索只能对所有的参数都做选择 就算不带一部分会更正确,网格搜索也不会放弃这个参数。parameters 一串参数和这些参数对应的希望网格搜索的参数的取值范围为。Gini系数取值为0-0.5 entropy 信息熵的取值为0-1。一般做两个参数、两个参数做网格搜索 减少计算量。能够帮助我们同时调整多个参数的技术,枚举技术。计算量大 尽量确定范围后搜索。
2023-05-14 16:42:15
377
1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅