
机器学习
yiyue21
这个作者很懒,什么都没留下…
展开
-
Python3D图像绘制(参数解释)
import numpy as npimport matplotlib as mplimport matplotlib.pyplot as pltimport mathfrom mpl_toolkits.mplot3d import Axes3D# In[2]:# 设置在jupyter中matplotlib展示图片,非内嵌显示 tk:显示出来,inline:内嵌显示get_ip...原创 2019-04-26 18:22:02 · 2643 阅读 · 1 评论 -
随机森林算法的理论知识
随机森林是一种有监督学习算法,是以决策树为基学习器的集成学习算法。随机森林非常简单,易于实现,计算开销也很小,但是它在分类和回归上表现出非常惊人的性能,因此,随机森林被誉为“代表集成学习技术水平的方法”。一,随机森林的随机性体现在哪几个方面?1,数据集的随机选取 从原始的数据集中采取有放回的抽样(bagging),构造子数据集,子数据集的数据量是和原始数据集相同的。不同子数...转载 2019-06-27 14:55:26 · 6806 阅读 · 0 评论 -
机器学习填坑:模型参数和超参数之间的区别
文章来源:https://cloud.tencent.com/developer/article/1005660导语机器学习中的模型参数和模型超参数在作用、来源等方面都有所不同,而模型超参数常被称为模型参数,这样,很容易对初学者造成混淆。本文给出了模型参数和模型超参数的定义,并进行了对比,指出了二者本质上的区别:模型参数是模型内部的配置变量,可以用数据估计模型参数的值;模型超参数是模型外部...转载 2019-05-28 17:52:20 · 648 阅读 · 0 评论 -
GBDT和LR结合使用分析
文章来源:https://www.deeplearn.me/1797.htmlGBDT+LR 的特征组合方案是工业界经常使用的组合,尤其是计算广告 CTR 中应用比较广泛,方案的提出者是 Facebook 2014 的一篇论文。相关的开发工具包,sklearn 和 xgboost(ps:xgboost 是一个大杀器,并且支持 hadoop 分布式,你可以部署实现分布式操作,博主部署过...转载 2019-05-28 13:58:50 · 394 阅读 · 0 评论 -
决策树学习导图
原创 2019-05-16 11:02:56 · 196 阅读 · 0 评论 -
朴素贝叶斯法实现拼写检查器
转https://blog.youkuaiyun.com/wenyichuan/article/details/78572007import re, collections #我们利用一个叫 words 的函数把语料中的单词全部抽取出来, 转成小写, 并且去除单词中间的特殊符号# 单词就会成为字母序列, don't 就变成 don 和 t 了,为了简化操作我们就忽略这个细节def words...转载 2019-05-15 21:51:30 · 385 阅读 · 0 评论 -
【聚类算法】MiniBatchKMeans算法
MiniBatchKMeans类主要参数 MiniBatchKMeans类的主要参数比KMeans类稍多,主要有: 1)n_clusters: 即我们的k值,和KMeans类的n_clusters意义一样。 2)max_iter:最大的迭代次数,和KMeans类的max_iter意义一样。 3)n_init:用不同的初始化质心运行算法的次数。这里和...原创 2019-05-15 17:07:15 · 18318 阅读 · 3 评论 -
【聚类算法】K-Means聚类
KMeans类的主要参数有: 1)n_clusters: 即我们的k值,一般需要多试一些值以获得较好的聚类效果。k值好坏的评估标准在下面会讲。 2)max_iter: 最大的迭代次数,一般如果是凸数据集的话可以不管这个值,如果数据集不是凸的,可能很难收敛,此时可以指定最大的迭代次数让算法可以及时退出循环。 3)n_init:用不同的初始化质心运行算法的次数...原创 2019-05-15 15:40:43 · 421 阅读 · 0 评论 -
svm.SVC API说明
svm.SVC API说明:功能:使用SVM分类器进行模型构建# 参数说明:# C: 误差项的惩罚系数,默认为1.0;一般为大于0的一个数字,C越大表示在训练过程中对于总误差的关注度越高,也就是说当C越大的时候,对于训练集的表现会越好,# 但是有可能引发过度拟合的问题(overfiting)# kernel:指定SVM内部函数的类型,可选值:linear、poly、rbf、sigmoi...原创 2019-05-20 16:04:26 · 1889 阅读 · 0 评论 -
Vintage、滚动率、迁移率的应用
感谢博主https://blog.youkuaiyun.com/ssshi0819/article/details/87904561转载 2019-05-10 11:12:13 · 551 阅读 · 0 评论 -
决策树的建立步骤(西瓜书例题)
树的建立步骤:引入包、数据的获取与处理、获取名称与类别标记——>选择样本最多的类作为类别标记——>重点来了,计算信息熵——>子数据集构建——>计算信息增益——>选择最优属性——>建立决策树。这些步骤搞懂了,基本就理解了决策树的原理。import pandas as pdimport numpy as npfrom collections import ...原创 2019-05-04 16:28:15 · 3173 阅读 · 1 评论 -
读入含有中文路径的文件
import pandasimport osos.chdir(r'F:\Download\课件\第一章')a=pd.read_csv("abc.csv",encoding='gbk')#IN encoding=‘gbk’,识别中文#不能直接写 trad_flow = pd.read_csv(r'F:\BaiduNetdiskDownload\配套课件\第一章\RFM_TRAD_...原创 2019-04-13 21:03:14 · 804 阅读 · 0 评论 -
【Python】学习笔记1
写下来以便自己记忆。描述性统计方法:首先判断变量的类型,一个分类变量计算统计量、频次value_counts,用直方图;两个分类标准化堆叠柱形图crosstab,统计检验用卡方检验;一个分类一个连续变量用groupby分类盒须图boxplot,统计检验用两样本T检验(多分类则用方差分析);两个连续变量pivot透视表散点图,统计检验用相关分析(注意相关分析和回归分析不同,相关分析用来确认变量是...原创 2019-04-16 21:24:54 · 255 阅读 · 0 评论 -
【Python学习笔记】matplotlib参数
越学坑越多,哭!来不及做图了。1】柱状图matplotlib.pyplot. bar (*args, **kwargs)bar(left, height, width, bottom, * args, align='center', **kwargs)参数: left:数据标量 height:高 width:款 bottom:底端对应Y轴align:对齐如果为 "居中", 则将x参...原创 2019-04-19 19:33:17 · 1602 阅读 · 0 评论 -
【Python】简单模型建立思路
这里的建模:引入包(设置字符集,防止中文乱码)>读入数据,查看数据>异常数据处理标准化>对数据进行训练集、测试集划分(再次查看数据)>模型对象创建>模型训练,输出相关参数>模型输出保存>加载模型预测>预测值与实际画图比较这里面的知识点比较细,可以搜到很多案例。第一次学的话,模型的保存容易实际在操作的时候出错。#案例一般都是下面这样写...原创 2019-04-22 14:26:53 · 1671 阅读 · 0 评论 -
【Python】科学计算库基本操作
查看dataframe字段信息a.info()查看dataframe统计信息a.describe()删除dataframe列del df['b1']df.drop(['b1','b2'],axis=1,inplace=True) #inplacez=True 在原对象上进行操作获取dataframe部分列df.iloc[:,0:3]df.iloc[:,[-1]]...原创 2019-04-20 19:03:53 · 219 阅读 · 0 评论