
机器学习
文章平均质量分 86
机器学习案例分享
一蓑烟雨紫洛
一蓑烟雨任平生
展开
-
购物篮模型
购物篮分析 关联规则关联规则是发现交易数据库中不同商品(项)之间的联系,这些规则找出顾客购买行为模式,如购买了某一商品对购买其他商品的影响。发现这样的规则可以应用于商品货架设计、货存安排以及根据购买模式对用户进行分类。代码gouwulan<-read.transactions(file = "gouwulan.csv",format = "single",sep=",",cols = c("orderno","goods_name"),rm.duplicates = TRUE)gouwula原创 2020-06-17 12:50:32 · 1041 阅读 · 0 评论 -
python机器学习--分类算法
#感知器逻辑:一个二值分类问题,分别记为1(正类别)和-1(负类别).定义激励函数z=wx (w为权值,x为输入值),当Z大于阈值时为1类,否则为-1类#用Python实现感知器学习算法。步骤:1、将权重初始化为0或一个极小的随机数 2、迭代所有训练样本,计算出输出值Y,更新权重。import numpy as npclass Perceptron(object): #class 创建类...原创 2018-11-14 15:13:54 · 6300 阅读 · 0 评论 -
提供推荐--集体智慧编程
背景:购物平台商品推荐算法介绍数据:影评者对几部影片的打分情况,寻找人们在品味上的相似程度。通过相似度评价值进行推荐。评价值体系:欧几米德距离和皮尔逊相关度critics = {‘Lisa Rose’:{‘Lady in the Water’:2.5,‘Snakes on a Plane’:3.5,‘Just My Luck’:3.0,‘Superman Returns’:3.5,‘You, ...原创 2019-05-13 16:28:39 · 1028 阅读 · 0 评论 -
XGBoost原理及应用
XGBOST原理XGBoost是使用梯度提升框架实现的高效、灵活、可移植的机器学习库,全称是EXtreme Gradient Boosting.XGBoost算法原理其实算法的原理就是在一颗决策树的基础上不断地加树,比如在n-1颗树地基础上加一棵树变成n颗树的同时算法的精确率不断提高、效果提升。基础理解:损失函数: l(yi,yi^) = (yi-yi^)**2 【这里损失函数先以方差损失作为示例、因为比较好算和符号表达毕竟这个也很不错;当然损失函数可以更改】如何最优化的求解? : F*(x)原创 2020-11-18 13:53:12 · 3876 阅读 · 0 评论 -
Python之主成分分析
目的: 了解主成分分析、因子分析、判别分析、聚类分析的原理背景 掌握SAS语言进行多变量分析过程(princomp过程和factor过程) 掌握SAS语言进行判别分析 (discrim过程) 掌握SAS语言进行聚类分析(cluster过程,tree过程)引言:前面介绍SAS的基本统计分析功能。本章我们讲述用SAS进行多元统计分析。SAS进行多元统计分析的过程包括:第一类:多变量分析过程,包括princomp(主成分分析)、factor(因子分析)、cancorr(典型相关分析、mult原创 2020-12-22 17:03:09 · 9414 阅读 · 0 评论 -
时间序列ARIMA[PYTHON]
【注明】用的是python3.6版本。参考如下三篇博客,增加部分个人理解。博客1:https://blog.youkuaiyun.com/u010414589/article/details/49622625博客2:https://blog.youkuaiyun.com/qq_41214205/article/details/79984095博客3:https://blog.youkuaiyun.com/Tw6cy6uKyDe...原创 2018-11-19 18:44:16 · 1062 阅读 · 0 评论 -
决策树--集体智慧编程
预测一个网站上有多少用户愿意为了某些高级功能支付费用数据python:my_data=[[‘slashdot’,‘USA’,‘yes’,18,‘None’],[‘google’,‘France’,‘yes’,23,‘Premium’],[‘digg’,‘USA’,‘yes’,24,‘Basic’],[‘kiwitobes’,‘France’,‘yes’,23,‘Basic’],[‘go...原创 2018-10-31 17:41:50 · 286 阅读 · 0 评论 -
Python-数据预处理
1、缺失数据处理:存在缺失值的特征或者样本删除,均值替换缺失值import pandas as pdfrom io import StringIO #StringIO字符串的缓存csv_data = ''' A,B,C,D1.0,2.0,3.0,4.05.0,6.0,,8.00.0,11.0,12.0,'''df=pd.read_csv(StringIO(csv_data))df...原创 2018-12-04 18:38:01 · 3169 阅读 · 0 评论 -
随机森林模型和梯度提升算法
import pandas as pdimport numpy as npfrom sklearn.ensemble import RandomForestRegressorfrom sklearn.ensemble import GradientBoostingRegressorpackage_dir = './cs/personas/'df = pd.read_excel(package_dir + 'data.xlsx')X = df[df.columns[df.columns !=原创 2020-06-17 12:21:59 · 566 阅读 · 0 评论 -
tensorflow以逻辑回归模拟二维数据
import tensorflow as tf import numpy as np import matplotlib.pyplot as pltplotdata = { “batchsize”:[], “loss”:[] } def moving_average(a, w=10): if len(a) < w: return a[:] r...翻译 2018-09-13 16:10:19 · 433 阅读 · 0 评论 -
朴素贝叶斯算法---学习笔记整理
什么是朴素贝叶斯分类方法:朴素贝叶斯是基于贝叶斯定理与特征条件独立性假设的分类方法。朴素:特征与特征之间是相互独立朴素贝叶斯算法:朴素 + 贝叶斯应用场景:文本分类、单词作为特征为防止计算后的值为0 引用拉普拉斯平滑系数优点 对缺失数据不太敏感,算法也比较简单,常用于文本分类。 分类准确度高,速度快缺点 由于使用了样本属性独立性的假设,所以如果特征属性有关联时其效果不好案例:20类新闻分类 1)获取数据 2)划分数据集原创 2022-03-21 17:32:19 · 1593 阅读 · 0 评论 -
lightGBM----学习笔记整理
1、前序1.1、lightGBM演进过程c3.0(信息增益,信息增益率)—> CART(Gini) —> 提升树(AdaBoost) —> GBDT —> XGBoost —> lightGBM1.2、AdaBoost算法AdaBoost是一种提升树的方法,和三个臭皮匠,赛过诸葛亮的道理一样。AdaBoost两个问题1、如何改变训练数据的权重或概率分布 提高前一轮被弱分类器错误分类的样本权重,降低前一轮被分对的权重2、如何将弱分类器组合成一个强分类器,原创 2022-03-21 16:17:21 · 1743 阅读 · 0 评论 -
SVM支持向量机-----学习笔记整理
SVM支持向量机1、定义SVM全称是support vector machine(支持向量机),即寻找一个超平面使样本分成两类,并且间隔最大SVM能够执行线性或非线性分类、回归、甚至是异常值检测任务。SVM特别适用于中小型复杂数据集的分类2、超平面最大间隔左图虚线表现非常不好。实线边界与实例过于接近,导致在面对新实例时,可能表现不会太好。右图中的实线代表SVM分类器的决策边界,不仅分离了两个类别,且尽可能远离最近的训练实例3、硬间隔和软间隔3.1、硬间隔分类上图1左边的表现缺点:1、原创 2022-03-21 11:07:48 · 2053 阅读 · 0 评论 -
HMM模型-----学习笔记整理
HMM模型了解什么是马尔可夫链知道什么是HMM模型知道前向后向算法评估管擦序列概率知道维特比算法解码隐藏状态序列了解鲍姆-韦尔奇算法知道HMM模型API的使用1、马尔可夫链1.1、简介马尔可夫链几位状态空间中从一个状态到另一个状态转换的随机过程该过程要求具备"无记忆"的特征下一状态的概率分布只能由当前状态决定,在时间序列中它前面的事件均与之无关在马尔可夫链的每一步,系统根据概率分布,可从一个状态变到另一个状态,也可以保持当前状态。状态的改变叫做转移,与不同的状态改变相关的概率叫做转原创 2022-03-18 16:49:52 · 4109 阅读 · 0 评论 -
EM算法---学习笔记整理
EM算法1、定义EM算法也称期望最大化算法(Expection-Maxinum)算法它是一个算法基础,是很多机器学习领域算法的基础,比如隐士马尔可夫算法(HMM)等EM算法是一种迭代优化策略,计算方式中每一次迭代分为2步1、期望步(E步)2、极大步(M步)所以算法被称为EM算法2、EM算法计算流程首先根据已经给出的观测数据,估计出模型参数的值然后再根据上一步估计出的参数估计缺失数据的值,再根据估计出的缺失数据加上之前已经观测的数据重新再对参数进行估计然后反复迭代直至最后收敛,迭代结束原创 2022-03-18 15:49:09 · 665 阅读 · 0 评论 -
集成学习进阶-----学习笔记整理
集成学习进阶知道xgboost算法原理知道otto案例通过xgboost实现流程知道lightGBM算法原理知道PUBG案例通过lightGBM实现流程知道stacking算法原理知道住房月租金预测通过stacking实现流程1、xgboost算法原理XGBoost(Extreme Gradient Boosting)全名极端梯度提升树,在绝大多数的回归和分类问题上表现得十分顶尖。2、最优模型的构建方法3、应用决策树生成和剪枝分别对应了经验风险最小化和结构风险最小化原创 2022-03-18 15:42:36 · 794 阅读 · 0 评论 -
决策树----学习笔记整理
决策树决策树:是一种树形结构,其中每个内部节点表示一个属性上的判断,每个分支代表一个判断结果的输出,最后每个叶节点代表一种分类结果,本质是一颗由多个判断节点组成的树。熵物理学上,熵 Entropy 是“混乱”程度的量度。系统越有序,熵值越低;系统越混乱或者分散,熵值越高。信息理论:1、从信息的完整性上进行的描述:当系统的有序状态一致时,数据越集中的地方熵值越小,数据越分散的地方熵值越大。2、从信息的有序性上进行的描述:当数据量一致时,系统越有序,熵值越低;系统越混乱或者分散,熵值越高。原创 2022-03-18 14:56:52 · 788 阅读 · 0 评论 -
K-近邻算法---学习笔记整理
K-近邻算法1、掌握K-近邻算法实现过程2、知道K-近邻算法的距离公式3、知道K-近邻算法的超参数K值以及取值问题4、知道kd树实现搜索的过程5、应用knn实现分析类6、知道交叉验证实现过程7、知道超参数搜索过程8、应用GridSearchCV实现算法参数的调优1、什么是K-近邻算法(k-NearestNeighbor):如果一个样本在特征空间中的K个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。1.1、欧式距离1.2、电影类型分析案例算出原创 2022-03-17 10:59:11 · 871 阅读 · 0 评论 -
逻辑回归---学习笔记整理
逻辑回归逻辑回归(Logistic Regression)是机器学习中的一种分类模型,逻辑回归是一种分类算法,虽然名字中带有回归,但是它与回归之间有一定的联系。由于算法的简单和高效,在实际中应用非常广泛。逻辑回归的原理逻辑回归的输入就是一个线性回归的结果。激活函数sigmoid函数判断标准回归的结果输入到sigmoid函数当中输出结果:[0, 1]区间中的一个概率值,默认为0.5为阈值逻辑回归最终的分类是通过属于某个类别的概率值来判断是否属于某个类别,并且这个类别默认标记为1(正例)原创 2022-03-17 10:38:33 · 299 阅读 · 0 评论 -
线性回归----学习笔记整理
线性回归应用LinearRegression或SGDRegressor实现回归预测知道回归算法的评估标准及其公式知道过拟合与欠拟合的原因以及解决方法知道岭回归的原理及与线性回归的不同之处应用Ridge实现回归预测应用joblib实现模型的保存于加载1、掌握线性回归的定义利用回归方程(函数)对一个或多个自变量(特征值)和因变量(目标值)之间关系进行建模的一种分析方式。线性回归的分类:线性关系 非线性关系2、线性回归APIsklearn.linear_model.LinearRegre原创 2022-03-17 10:17:36 · 406 阅读 · 0 评论 -
机器学习:模型评价指标总结
混淆矩阵混淆矩阵是一种特定的矩阵用来呈现算法性能的可视化效果,通常用于二分类模型。其每一列代表预测值,每一行代表的是实际的类别。其实就是把所有类别的预测结果与真实结果按类别放置到了同一个表里,在这个表格中我们可以清楚看到每个类别正确识别的数量和错误识别的数量。TP :预测为正样本,实际也是正样本。FP :预测为正样本,实际是负样本。FN :预测为负样本,实际是正样本。TN :预测为负样本,实际也是负样本。准确率准确率是指我们的模型预测正确的结果所占的比例。精确率所有预测为正样本的原创 2022-02-28 09:36:21 · 2226 阅读 · 0 评论 -
hive sql总结汇总
一、Hive的DDL语法对数据库的操作• 创建数据库:create database if not exists myhive;说明:hive的表存放位置模式是由hive-site.xml当中的一个属性指定的 :hive.metastore.warehouse.dir创建数据库并指定hdfs存储位置 :create database myhive2 location '/myhive2';• 修改数据库:alter database myhive2 set dbpropertie转载 2022-02-25 16:59:46 · 6553 阅读 · 1 评论 -
应用时间序列分析--基于Eviews软件
第一章 时间序列的预处理一、平稳性检验时序图检验和自相关图检验(一)时序图检验根据平稳时间序列均值、方差为常数的性质,平稳序列的时序图应该显示出该序列始终在一个常数值附近随机波动,而且波动的范围有界、无明显趋势及周期特征例2.1:检验1964年——1999年中国纱年产量序列的平稳性1.在Eviews软件中打开案例数据图1:打开外来数据图2:打开数据文件夹中案例数据文件夹中数据文件中序列的名称可以在打开的时候输入,或者在打开的数据中输入图3:打开过程中给序列命名图4:打开数据2原创 2022-02-25 11:55:29 · 36842 阅读 · 13 评论 -
标签体系,这么做才有实用价值
标签体系,绝对是数据分析年度工作中,最值得摆在开年做的。因为它和所有工作都有关系,经营分析、投放分析、用户画像、推荐策略、商品运营……都得靠标签带动。标签体系做得好,后续分析才有足够多素材,才能积累经验。标签体系做得差,白费功夫不说,后边做深入分析的时候还没有依靠。那么该如何做呢?今天简单分享一下一、标签体系常见错误最常见的错误,就是:标签就是一箩筐,啥玩意都往里装。上传文章的时候,随手贴几个:新闻、热点、产品……商品上架的时候,随手贴几个:功能、包装、价格……活动发布的时候,随手贴几个:名称原创 2022-01-25 13:43:27 · 4345 阅读 · 0 评论