且行且安~
擅长路径规划、车间调度、港口调度、排班调度等OR优化领域以及机器学习及数分领域,合作需求请见推广栏,请备注来意,不然不通过!
展开
-
机器学习目录
在未来几个月时间里,将会逐步针对先前整理的博客文章进行分类归纳,并建立成为学习专栏区。内容将会重点从理论算法,推导过程,应用阶段,项目实战几个维度进行整理。内容会慢慢更新。如下为整理的机器学习的查阅目录原创 2022-04-22 01:25:29 · 3211 阅读 · 0 评论 -
智能供应链预测的应用
全文转载仅供自己学习使用,主要是算法在物流场景下的应用落地1 背景前段时间京东公开了面向第二个十二年的战略规划,表示京东将全面走向技术化,大力发展人工智能和机器人自动化技术,将过去传统方式构筑的优势全面升级。京东Y事业部顺势成立,该事业部将以服务泛零售为核心,着重智能供应...原创 2019-07-08 12:13:10 · 7511 阅读 · 2 评论 -
机器学习算法(3)之决策树算法
前言:首先,在了解树模型之前,自然想到树模型和线性模型有什么区别呢?其中最重要的是,树形模型是一个一个特征进行处理,之前线性模型是所有特征给予权重相加得到一个新的值。决策树与逻辑回归的分类区别也在于此,逻辑回归是将所有特征变换为概率后,通过大于某一概率阈值的划分为一类,小于某一概率阈值的为另一类;而决策树是对每一个特征做一个划分。另外逻辑回归只能找到线性分割(输入特征x与logit之间是线性的,除...原创 2018-08-25 20:26:40 · 122924 阅读 · 15 评论 -
Stacking模型融合方法(2)
Stacking模型融合方法(基于机器学习库的实现方式)原创 2023-03-18 01:58:05 · 564 阅读 · 0 评论 -
机器学习算法【11】--推荐系统实战
前言:本文是机器学习实战中的案例,餐馆菜肴推荐系统from numpy import *from numpy import linalg as la# 载入数据 (用户-菜肴矩阵)# 行为 用户, 列为希肴, 表示用户对某个菜肴的评分def loadExData2(): return[[0, 0, 0, 0, 0, 4, 0, 0, 0, 0, 5], ...原创 2018-09-09 11:09:05 · 1746 阅读 · 0 评论 -
机器学习算法【7】--朴素贝叶斯实战
前言:之前在朴素贝叶斯算法这篇文章中,对朴素贝叶斯分类算法的原理做了一个总结。这里我们就从实战的角度来看朴素贝叶斯类库。重点讲述朴素贝叶斯类库的使用要点和参数选择。这里的实战是利用朴素贝叶斯来进行垃圾邮件的分类实战部分:from numpy import *import codecs,refrom sklearn.naive_bayes import MultinomialNB...原创 2018-09-06 19:58:30 · 870 阅读 · 0 评论 -
Sklearn包含的常用算法
文章列出了Sklearn模块中常用的算法及调用方法 总的来说,Sklearn可实现的函数或功能可分为以下几个方面: 分类算法 回归算法 聚类算法 降维算法 文本挖掘算法 模型优化 数据预处理原创 2018-08-29 21:29:20 · 7405 阅读 · 0 评论 -
【机器学习】数据清洗常用的函数汇总
目录数据规整化:合并、清理、过滤1) merge()函数参数----合并数据集2) pandas 的value_counts()函数----对Series里面的每个值进行计数并且排序3)astype()--修改列类型4) 字符替换的方法5)成员判定6)判断DataFrame中是否有缺失值7) DataFrame.sort_values原创 2018-07-29 14:35:55 · 3420 阅读 · 0 评论 -
Sklearn中的StratifiedKFold与stacking模型的融合方法
前言:在通过使用特征工程,模型调优等诸多方法的实践后,在单模型已经是比价再难有突破的情况下,我们可以尝试使用模型的融合,本文将重点讲述StratifiedKFold与stacking的两种模型方法,包括源码的示意过程。StratifiedKFold用法类似Kfold,但是他是分层采样,确保训练集,测试集中各类别样本的比例与原始数据集中相同。from sklearn.model...原创 2018-09-28 21:54:23 · 7855 阅读 · 3 评论 -
Xgboost算法参数调优详解
这篇文章最适合刚接触XGboost的朋友。在这篇文章中,我们会学到参数调优的技巧,以及XGboost相关的知识。XGBoost算法现在已经成为很多数据工程师的重要武器。它是一种十分精致的算法,可以处理各种不规则的数据。故掌握好该算法模型的参数调优就显得尤为重要。 XGBoost(eXtreme Gradient Boosting)是Gradient Boosting算法的一个优化的版本。原创 2018-04-11 17:31:35 · 2697 阅读 · 0 评论 -
随机森林调参示例
前言:特意写在前面,在调参的过程中,一定不要一次调整多个参数,理论是是可以,但那样不仅耗时,而且不好细微的调参,我就以我用随机森林的例子为例,我一次性调整了4个参数,大概花费了我差不多4个小时的时间,所以我自己的经验就是参数最好一个一个调整,当然如果你的机器性能很好,完全可以忽略这点。其次,在调参的过程中,除了使用常见的格点搜索,利用验证曲线validation_curve来形象化的展示每个结...原创 2018-04-01 14:56:14 · 14673 阅读 · 5 评论 -
机器学习之梯度与梯度下降法
目录1.导数2.梯度3.梯度下降法4.梯度下降存在的问题机器学习中,在求解损失函数的最小值时,需要用到求导数的各种技巧。1.导数导数的几何意义:导数又叫微分,是图像的斜率。多元函数的偏导数偏导数的几何意义2.梯度梯度的定义来自百度:(梯度的本意是一个向量(矢量),表示某一函数在该点处的方向导数沿着该方向取得最大值,即函数在该点处沿着该...原创 2018-08-04 13:13:24 · 11376 阅读 · 1 评论 -
机器学习中的数学-线性判别分析(LDA), 主成分分析(PCA)、奇异值分解(SVD)
1、What & Why PCA(主成分分析)PCA,Principal components analyses,主成分分析。广泛应用于降维,有损数据压缩,特征提取和数据可视化。也被称为Karhunen-Loeve变换从降维的方法角度来看,有两种PCA的定义方式,方差最大和损失最小两种方式。这里需要有一个直观的理解:什么是变换(线性代数基础)。原创 2018-07-25 11:18:29 · 2199 阅读 · 1 评论 -
机器学习初级项目--房价预测案例
项目背景:运用回归模型进行房价预测。 影响房价的因素有很多,在本题的数据集中有79个变量几乎描述了爱荷华州艾姆斯(Ames,lowa)住宅的方方面面,要求预测最终的房价。数据介绍: 我们要使用BartdeCock于2011年收集 [DeCock,2011], 涵盖了 2006−2010 年期间亚利桑那州埃姆斯市的房价。技术栈: 特征工程(Creative feature engineering) 回归模型(Advanced reg原创 2022-05-14 21:42:44 · 1434 阅读 · 0 评论 -
机器学习初级项目--泰坦尼克号预测案例
其实泰坦尼克的预测案例网上有很多,毕竟这是专栏的第一个实战项目,很有必要记录下来, 待以后学的更深的时候,看能不能改进模型的准确率。原创 2018-08-22 14:12:16 · 6154 阅读 · 1 评论 -
机器学习实战之逻辑回归实现预测病马的死亡率
在讲述完机器学习算法之后,本小节将会带领大家一步一步根据算法原理来自己实现算法设计,而不是直接调用现有的机器学习算法库,通过该阶段的学习与训练,相信你会对算法的原理有更深入的一个认识,对机器学习的认识也会更上一层楼,真正理解算法的工作原理。 这个案例是来自机器学习实战中的逻辑回归的案例--从疝气症病预测病马的死亡率,其中这个算法的核心是计算出各特征前的系数,即w,利用的方法是梯度上升法。原创 2018-09-07 19:22:46 · 1364 阅读 · 0 评论 -
机器学习实战之KNN实现mnist手写数字分类
在讲述完机器学习算法之后,本小节将会带领大家一步一步根据算法原理来自己实现算法设计,而不是直接调用现有的机器学习算法库,通过该阶段的学习与训练,相信你会对算法的原理有更深入的一个认识,对机器学习的认识也会更上一层楼,真正理解算法的工作原理。原创 2022-04-29 21:43:36 · 2069 阅读 · 0 评论 -
正则化的理解
目录一、Why & What 正则化1 概念2、先讨论几个问题:二、一般正则项三、深入理解一、Why & What 正则化我们总会在各种地方遇到正则化这个看起来很难理解的名词,其实它并没有那么高冷,是很好理解的首先,从使用正则化解决了一个什么问题的角度来看:正则化是为了防止过拟合, 进而增强泛化能力。用白话文转义,泛化误差(generalizatio...原创 2018-08-13 21:07:02 · 31851 阅读 · 6 评论 -
机器学习算法之超参数的选择、格点搜索与交叉验证
超参数的选择1. 超参数有哪些 与超参数对应的是参数。参数是可以在模型中通过BP(反向传播)进行更新学习的参数,例如各种权值矩阵,偏移量等等。超参数是需要进行程序员自己选择的参数,无法学习获得。 常见的超参数有模型(SVM,Softmax,Multi-layer Neural Network,…),迭代算法(Adam,SGD,…),学习率(learning rate)(不同的迭代算法...原创 2018-08-08 13:15:42 · 7623 阅读 · 0 评论 -
机器学习算法之模型评估和验证【2】交叉验证、网格搜索与模型评估
2.模型评估方法之数据集划分在机器学习任务中,拿到数据后,我们首先会将原始数据集分为三部分:训练集、验证集和测试集。训练集用于训练模型,验证集用于模型的参数选择配置,测试集对于模型来说是未知数据,用于评估模型的泛化能力。在使用机器学习的时候,往往会有;验证集与测试集,他们的作用不同。区分验证集,与测试集。注:Validation(验证集)可选-----参与模型训...原创 2018-08-18 07:49:15 · 8825 阅读 · 2 评论 -
机器学习算法之模型评估和验证【1】过拟合、欠拟合、学习曲线、验证曲线
1.模型的误差产生的机制• 误差(Error):模型预测结果与真实结果之间的差异• 偏差(bias):模型的训练误差叫做偏差• 方差(Variance):训练误差和测试误差的差异大小叫方差1.1 欠拟合与过拟合 欠拟合:在训练数据和未知数据上表现都很差,高偏差解决方法:1)添加其他特征项,有时候我们模型出现欠拟合的时候是因为特征项不够导致的,可以添加其...原创 2018-08-17 11:29:43 · 18644 阅读 · 5 评论 -
机器学习算法之数据预处理与特征工程
目录1 特征工程是什么?2 数据预处理2.1 无量纲化2.1.1 标准化2.1.2 区间缩放法2.1.3 标准化与正则化的区别2.2 对定量特征二值化2.3 对定性特征哑编码2.4 缺失值计算2.5 数据变换2.6 回顾3 特征选择(feature_selection)3.1 Filter3.1.1 移除低方差的特征 (Removing fe...原创 2018-08-13 12:13:16 · 11417 阅读 · 3 评论 -
机器学习算法(2)之K近邻算法
K最近邻(k-Nearest Neighbor,KNN),是一种常用于分类的算法,是有成熟理论支撑的、较为简单的经典机器学习算法之一。该方法的基本思路是:如果一个待分类样本在特征空间中的k个最相似(即特征空间中K近邻)的样本中的大多数属于某一个类别,则该样本也属于这个类别,即近朱者赤,近墨者黑。显然,对当前待分类样本的分类,需要大量已知分类的样本的支持,因此KNN是一种有监督学习算法。k-最近...原创 2018-08-24 13:12:36 · 4968 阅读 · 0 评论 -
机器学习算法(7)之朴素贝叶斯
1. 引言 朴素贝叶斯算法(Naive Bayes)是机器学习中常见的基本算法之一,主要用来做分类任务的。它是基于贝叶斯定理与条件独立性假设的分类方法。对于给定的训练数据集,首先基于特征条件独立性假设学习输入/输出的联合概率分布,然后基于此模型,对于给定的输入 x利用贝叶斯定理求出后验概率最大的输出 y 。 基于以上的解释,我们知道:1. 该算法的理论核心是贝叶斯定理;2...原创 2018-08-28 15:51:12 · 2376 阅读 · 0 评论 -
机器学习算法(5)之支持向量机的详细版
目录一、函数间隔与几何间隔二、支持向量三、SVM模型目标函数与优化四、线性可分SVM的算法过程五、线性SVM的软间隔最大化六、线性SVM软间隔最大化目标函数的优化七、软间隔最大化时的支持向量八、合页损失函数九、线性不可分支持向量机与核函数核函数的引入线性核函数多项式核函数高斯核函数Sigmoid核函数十、分类SVM的算法小结十一、支持...原创 2018-08-27 20:01:43 · 3269 阅读 · 0 评论 -
机器学习算法(1)之逻辑回归算法
Logistic Regression(逻辑回归)是机器学习中一个非常常见且非常重要的模型,在实际中也常常被使用,是一种经典的分类模型(不是回归模型)。本文主要介绍了Logistic Regression(逻辑回归)模型的原理以及参数估计、公式推导。一、逻辑回归基本概念Logistic回归虽然名字里带“回归”,但是它实际上是一种分类方法,主要用于两分类问题(即输出只有两种,分别代表两个类别...原创 2018-08-20 11:34:45 · 2713 阅读 · 2 评论 -
机器学习算法(4)之支持向量机的简易版
前言:支持向量机(Support Vecor Machine,以下简称SVM)虽然诞生只有短短的二十多年,但是自一诞生便由于它良好的分类性能席卷了机器学习领域,并牢牢压制了神经网络领域好多年。如果不考虑集成学习的算法,不考虑特定的训练数据集,在分类算法中的表现SVM说是排第一估计是没有什么异议的。支持向量机:支持向量机是一种二类分类模型,它的基本模型是定义在特征空间上的 间隔最大的线性分类...原创 2018-08-27 13:05:43 · 645 阅读 · 0 评论 -
Python中Gradient Boosting Machine(GBM)方法以及调参详解
1.前言这篇博客转载于寒小阳博主,如给博主带来不便,请联系我以便删除。2.目录Boosing是怎么工作的? 理解GBM模型中的参数 学会调参(附详例)3.Boosting是如何工作的?Boosting可以将一系列弱学习因子(weak learners)相结合来提升总体模型的预测准确度。在任意时间t,根据t-1时刻得到的结果我们给当前结果赋予一个权重。之前正确预测的结果获得较小...转载 2018-04-10 18:41:53 · 1729 阅读 · 0 评论 -
机器学习算法一览表
1.引言提起笔来写这篇博客,突然有点愧疚和尴尬。愧疚的是,工作杂事多,加之懒癌严重,导致这个系列一直没有更新,向关注该系列的同学们道个歉。尴尬的是,按理说,机器学习介绍与算法一览应该放在最前面写,详细的应用建议应该在讲完机器学习常用算法之后写,突然莫名奇妙在中间插播这么一篇,好像有点打乱主线。 老话说『亡羊补牢,为时未晚』,前面开头忘讲的东西,咱在这块儿补上。我们先带着大家过一遍传统机器学习...转载 2018-03-31 18:07:33 · 5902 阅读 · 0 评论 -
机器学习算法(9)之聚类算法
前言:在谈论K-means之前,我们是不是会联想到KNN算法呢,感觉这两个好像啊,其实两者差别还是很大的,一个是有监督学习算法,有对应的类别输出,一个是无监督的学习算法,没有样本输出,而且KNN算法是基于实例的一种的算法,KNN只是简单地把训练样例存储起来,并没有中间的训练过程,而K-mans算法确是有算法的训练过程当然,两者也有一些相似点,两个算法都蕴含着要找出某一个点和另一个点最近的点,两...原创 2018-08-31 20:37:52 · 8862 阅读 · 0 评论 -
机器学习算法(8)之多元线性回归分析理论详解
前言:当影响因变量的因素是多个时候,这种一个变量同时与多个变量的回归问题就是多元回归,分为:多元线性回归和多元非线性回归。线性回归(Linear regressions)和逻辑回归(Logistic regressions)是人们学习算法的第一个预测模型。因此它们很常见,还有许多分析人员认为它们是仅有的回归模型,部分分析师认为它们是所有回归模型中最重要的。 事实上有无数的回归模型都能被使用,每种形...原创 2018-08-29 16:28:27 · 86229 阅读 · 1 评论 -
机器学习算法(10)之数据挖掘算法之Apriori详解
前言:数据挖掘与机器学习 有时候,人们会对机器学习与数据挖掘这两个名词感到困惑。如果你翻开一本冠以机器学习之名的教科书,再同时翻开一本名叫数据挖掘的教材,你会发现二者之间有相当多重合的内容。比如机器学习中也会讲到决策树和支持向量机,而数据挖掘的书里也必然要在决策树和支持向量机上花费相当的篇幅。可见二者确有相当大的重合面,但如果细研究起来,二者也的确是各自不同的领域。 ...原创 2018-09-01 11:58:31 · 1696 阅读 · 0 评论 -
机器学习算法(15)之Xgboost算法
前言:前一篇文章对boosting的两个方法做了阐述,这篇文章将会是对前两篇文章的深化,谈的是一个更加优化了的boostIng算法,自从2014年9月份在 Kaggle 的希格斯玻色子机器学习大赛中夺魁以来,XGBoost 与深度学习两个算法垄断了 Kaggle 大赛的大部分冠军。现在Kaggle 大赛的情况基本是这样的,凡是非结构化数据相关,比如语音、图像,基本都是深度学习获胜,凡是结构化数据上...原创 2018-09-11 14:32:27 · 50783 阅读 · 2 评论 -
机器学习算法(11)之推荐系统库--Surprise
Surprise 使用示例 基本使用方法如下 载入自己的数据集方法 算法调参让推荐系统有更好的效果 支持不同的评估准则 其中基于近邻的方法协同过滤可以设定不同的度量准则 简单易用同时支持多种推荐算法 在自己的数据集上训练模型 首先载入数据 使用不同的推荐系统算法进行建模比较 建模和存储模型 用协同过滤构建模型并进行预测 1 mo...转载 2018-09-09 15:47:54 · 3286 阅读 · 1 评论 -
机器学习算法(12)之集成学习之模型融合
前言:集成学习(Ensemble Learning),广泛用于分类和回归任务。它最初的思想很简单:使用一些(不同的)方法改变原始训练样本的分布,从而构建多个不同的分类器,并将这些分类器线性组合得到一个更强大的分类器,来做最后的决策。也就是常说的“三个臭皮匠顶个诸葛亮”的想法。 集成学习的理论基础来自于Kearns和Valiant提出的基于PAC(probably approxim...原创 2018-09-09 22:31:08 · 9411 阅读 · 0 评论 -
机器学习算法(13)之bagging与随机森林算法
前言:在集成学习算法中,我们讲到了集成学习主要有两个流派,一个是boosting流派,它的特点是各个弱学习器之间有依赖关系。另一种是bagging流派,它的特点是各个弱学习器之间没有依赖关系,可以并行拟合。本文就对集成学习中Bagging与随机森林算法做一个总结。 随机森林是集成学习中可以和梯度提升树GBDT分庭抗礼的算法,尤其是它可以很方便的并行训练,在如今大数据大样本的的时代很有诱惑力。...原创 2018-09-10 14:28:17 · 3047 阅读 · 0 评论 -
机器学习算法(14)之boosting算法之Adaboost、GBDT
前言:我们讲到了集成学习按照个体学习器之间是否存在依赖关系可以分为两类,第一个是个体学习器之间不存在强依赖关系,另一类是个体学习器之间存在强依赖关系。后者的代表算法就是是boosting系列算法。本文就对boosting以及对其各种延伸算法做详细的推导。注:这篇文章由于有很多数学公式,编辑起来很费力,所以很多会采取截图的方式来撰写,大部分来源于李航老师的《统计学习方法》。1、boostin...原创 2018-09-10 16:42:09 · 4247 阅读 · 0 评论