
ML
yanzi-000
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
常用聚类算法
在直观印象中,说起聚类算法,首先想到的k-means.k-means作为经典的聚类算法,应用范围很广,但是在运行前要指定聚类的数量n,这个值对于最终的计算结果有很大的影响.而现在也没有通用的方法来得到这个值.本文介绍了包括k-means在内的多种聚类算法,可以在实际中灵活使用.原创 2020-06-22 15:33:21 · 898 阅读 · 0 评论 -
kaggle之EDA,特征工程
kagglehttps://www.kaggle.com/c/santander-customer-transaction-prediction/leaderboardkaggle经验分享链接1 ata Exploration,EDA(Exploratory Data Analysis)通常我们会用 pandas 来载入数据,并做一些简单的可视化来理解数据。Visualization,...原创 2019-07-01 16:12:45 · 2294 阅读 · 0 评论 -
ML
1 K-means聚类算法,原始数据不带标签,属于无监督算法的范围初始有一团数据,选择2个点作为其质心,计算每个数据点到各个质心的距离,选择距离最近的质心作为数据点的标签,由于有2个质心,现在数据被分为2个部分了,分别计算2个部分的数据得到新的质心;重复这个过程,直到质心位置不变或者变化范围很小。难点在于质心数量的选择,和计算距离的方式选择。2 决策树2.1 基本概念1 信息熵信...原创 2019-07-01 16:13:34 · 343 阅读 · 0 评论 -
xgboost
2015年Kaggle竞赛中,29支挑战成功队伍,有17支使用XGBoost。第二流行的方式是深度神经网络,有11支队伍使用。scalability,可伸缩性,可在单机运行,也可在分布式系统和内存限制的系统运行。创新点:• We design and build a highly scalable end-to-end treeboosting system.• We propose a...原创 2019-07-01 16:14:05 · 139 阅读 · 0 评论