
机器学习
文章平均质量分 94
小步积
这个作者很懒,什么都没留下…
展开
-
kaggle_GiveMeSomeCredit_建模比赛
提交结果:我的private score 0.86699, public score 0.86101,榜单第一名private score 0.86955, public score 0.86390.Importing librariesimport pandas as pdimport numpy as npimport osfrom sklearn.ensemble import RandomForestClassifierfrom sklearn.ensemble import G原创 2021-02-22 15:37:45 · 1067 阅读 · 2 评论 -
【机器学习要点记录】知识点
1、为什么做归一化/标准化?归一化对数据进行移动,但不改变数据分布,标准化使数据符合某种分布,改变了数据分布。做归一化/标准化是因为某些特征量纲差别大,做了归一化/标准化可以加速求解。需要做归一化/标准化的算法:涉及距离计算的算法,如KNN、KMEANS,用梯度下降求解的算法,如逻辑回归。哪些算法不需要归一化/标准化:树形结构,如决策树和随机森林,因为他们关注的不是数据的值,而是数据的分布和概率,对数据缩放不影响分裂点的位置。2、有监督和无监督的区别。一个有label一个没有l.原创 2020-10-15 16:14:24 · 289 阅读 · 0 评论 -
【机器学习要点记录】画图模板
f,ax = plt.subplots(figsize=(15,15))ax = sns.heatmap(data.corr(), annot=True, cmap = 'viridis', linewidths = .1, linecolor = 'grey', fmt=".2f")ax.set_title("Correlation")plt.show()原创 2020-10-13 11:12:51 · 416 阅读 · 0 评论 -
【机器学习要点记录】metrics.roc_auc_score:使用 model.predict() 和 model.predict_proba() 效果差别很大
以前使用roc_auc_score都是用model.predict()的预测结果,错了那么久。。。。。。查看官网注释才知道应该用model.predict_proba()的预测结果。做了个对比试验,分别使用model.predict() 和 model.predict_proba()的预测结果,观察AUC值发现,相比于使用model.predict_proba()的AUC值,使用model.predict()的AUC值偏小。...原创 2020-10-13 11:06:58 · 1741 阅读 · 5 评论 -
【机器学习要点记录】实用代码
总是想不起来怎么查找,这里记录一下sklearn.metrics.SCORERS.keys()dict_keys(['explained_variance', 'r2', 'max_error', 'neg_median_absolute_error', 'neg_mean_absolute_error', 'neg_mean_squared_error', 'neg_mean_squared_log_error', 'neg_root_mean_squared_error', 'neg_mea原创 2020-10-13 10:22:57 · 243 阅读 · 0 评论 -
聚类——KMeans面试总结
Kmeans流程:1 随机抽取K个样本作为最初的质心2 开始循环:2.1 将每个样本点分配到离他们最近的质心,生成K个簇2.2 对于每个簇,计算所有被分到该簇的样本点的平均值作为新的质心3 当质心的位置不再发生变化,迭代停止,聚类完成优点:1 简单,容易实现2 时间复杂度也不是很高缺点:1 K不好确定,得画学习曲线才能找到合适的K2 初始质心的选择会影响聚类的效果3 因为2,所以是局部最优,不是全局最优4 因为要计算距离,所以对噪声比较敏感5 因为需要样本能求得出均值,所以限制原创 2020-09-03 17:08:57 · 621 阅读 · 0 评论 -
基于GBDT的商品销售预测
背景商品销售预测几乎时每个运营部门的必备数据支持项目,无论是大型促销活动还是单品营销都是如此。这个项目就是针对某单品做的订单量预测。项目主要应用技术本项目用到的主要技术包括:基本预处理,包括缺失值填充。数据建模,包括交叉验证、集合回归方法GradientBoostingRegressor。图形展示,使用matplotlib做折线图展示。主要用到的库包括:pandas、numpy、matplotlib、sklearn、pickle,其中sklearn是数据建模的核心库。本项目技术重点是设置原创 2020-07-01 22:31:45 · 2319 阅读 · 2 评论 -
电影推荐——基于关联分析Apriori算法
本次数据挖掘项目是电影推荐问题,目的是找出对象同时出现的情况,也就是寻找用户同时喜欢几部电影的情况。使用最基础的Apriori算法。import osimport pandas as pdimport numpy as npimport sysfrom operator import itemgetterfrom collections import defaultdict一、加载数据并观察# 文件的后缀就是.data,后面不要再加.csv了,否则会报错all_ratings = pd原创 2020-06-28 20:43:07 · 11064 阅读 · 9 评论 -
window 删除文件报错显示被程序占用 强制删除被占用的文件
今天遇到一个问题,删除excel文件时报错,显示该文件被excel占用无法删除,打开任务管理器,在进程里也没看到有excel程序,在网上查了资料后,终于解决,解决方法如下:电脑最下方任务栏右键——任务管理器——性能——左下方打开资源监视器——CPU——关联的句柄——输入要关闭的文件名及其后缀(比如我要关闭一个被excel占用的文件,它的文件名叫myfile.xlsx,那我就在关联的句柄后面输入...原创 2020-03-12 22:34:26 · 2871 阅读 · 0 评论 -
SVM线性可分支持向量机和硬间隔最大化
参考书:李航《统计学习方法》学习线性可分支持向量机的时候遇到多个问题,做这个笔记总结下。支持向量机由简至繁可分为3种:线性可分支持向量机、线性支持向量机、非线性支持向量机。这个笔记只记录线性可分支持向量机。一、基本概念1.1、线性可分支持向量机的定义给定线性可分训练数据集,通过间隔最大化或者等价地求解相应的凸二次规划问题学习得到的分离超平面为: ...原创 2019-12-31 16:09:00 · 460 阅读 · 0 评论 -
SVM函数间隔和几何间隔
刚开始接触SVM,遇到函数间隔和几何间隔,对这2个概念有点混肴,查阅一些资料后有点明白了。函数间隔:并不是实际意义上的点到超平面的距离,只是表示点到超平面的远近。比如平面方程1:3x1 + 6x2 - 12 = 0 和平面方程2:x1 + 2x2 - 4 = 0 都过点(4,0)和(2,0),虽然平面方程1的系数是平面方程2的3倍,但它们是同一条线同一个平面。函数间隔等于y(wx + ...原创 2019-12-30 16:05:23 · 1297 阅读 · 3 评论 -
python代码实现KNN
python代码实现KNN暴力算法,难点在于循环计算每个预测点、循环计算每个特征数据。以后需要优化。from sklearn.datasets import load_irisimport pandas as pdimport numpy as np# print setpd.set_option('display.max_columns', 1000)pd.set_option...原创 2019-12-18 23:10:51 · 308 阅读 · 0 评论 -
python代码实现朴素贝叶斯分类器(离散变量)
import pandas as pdimport numpy as npdef fit(df,lambda_=0): class_name = df.columns.to_list()[-1] feature_names = df.columns.to_list()[:-1] # 类标记计数 N = df.shape[0] class_count...原创 2019-12-13 17:29:36 · 980 阅读 · 1 评论 -
机器学习——KNN最近邻算法
K近邻(K Nearest Neighbor,KNN),可以做分类,也可以做回归。一、基本思想给定一组训练集,有一个需要判断类别的输入实例,离输入实例最近的K个训练数据属于哪个类别,就判断输入实例属于哪个类别。二、分类算法描述:1、计算输入实例和所有训练集数据的距离;2、按距离升序排序;3、选择排序后的前K个训练子集数据;4、根据选择出来的K个训练子集数据的...原创 2019-12-10 23:11:17 · 848 阅读 · 0 评论