moledyzhang-优快云博客

原创 xgboost 中的gain freq， cover

assuming that you're using xgboost to fit boosted treesfor binary classification. The importance matrix is actually a data.tableobject with the first column listing the names of all the features actua

2018-04-11 18:03:44 3284

原创线性回归与逻辑回归

线性回归和逻辑回归的应用场景？答：线性回归主要用来解决连续值预测的问题，逻辑回归用来解决分类的问题，输出的属于某个类别的概率，工业界经常会用逻辑回归来做排序线性回归线性回归（Linear Regression）是利用称为线性回归方程的最小平方函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。模型hθ=θTxh_\theta=\theta^Tx 损失函数J(θ)=12m∑i=1m(hθ(x

2018-03-16 13:52:21 549

原创隐马尔科夫模型HMM

应用隐马尔科夫模型(HMM,Hidden Markov Model)可用标注问题，在语音识别、NLP、生物信息、模式识别等领域被实践证明是有效的算法。定义隐马尔科夫模型是关于时序的概率模型，描述由一个隐藏的马尔科夫链随机生成不可观测的状态的序列，再由各状态随机生成一个观测而产生观测序列的模型（参考李航的《统计学习方法》第10章）。隐马尔科夫模型随机生成的状态随机序列，称为状态序列；...

2018-03-13 19:21:01 479

原创 XGBoost理解

什么是XGbbostXGBoost是Extreme Gradient Boosting的简称，对应的模型就是一堆CART树，思想是将每棵树的预测值加到一起作为最终的预测值(可谓简单粗暴)。下图就是CART树和一堆CART树的示例，用来判断一个人是否会喜欢计算机游戏：图二说明了如何用一堆CART树做预测，就是简单将各个树的预测分数进行相加。注：gboost为什么使用CART树而不是用普通的决

2018-03-12 22:05:59 2434

原创机器学习常见问题整理？

机器学习项目流程？答：理解实际问题，抽象成数学模型（分类、回归、聚类）——>获取数据——>特征预处理与特征选择——>训练模型与调优——>模型诊断（过拟合、欠拟合等）——>模型融合——>上线运行。机器学习算法的分类？答：监督学习、非监督学习、半监督学习、强化学习。特征选择与降维的区别？答：两者达到的效果是一样的，都是试图去减少特征数据集...

2018-03-12 19:17:26 5537

原创决策树、Bagging、随机森林、Boosting、Adaboost、GBDT、XGBoost

决策树（Descision Tree）决策树介绍决策树基于“树”结构进行决策： - 每个“内部节点”对应于某个属性上的测试 - 每个分枝对应于该测试的一种可能结果（即属性的某个取值） - 每个叶节点对应于一个“预测结果”决策树学习的三个步骤特征选择决策树的生成决策树的修剪特征选择是决定用哪个特征来划分特征空间；特征选择的准则：信息增益或信息增益比案例:预测小明今天出门打不

2018-03-09 15:49:14 7690

原创机器学习算法之线性回归

何为线性回归有监督学习 => 学习样本为 :D=(xi,yi)Ni=1D={(x^i,y^i)}{^N_{i=1}}输出/预测的结果yi为连续值变量需要学习映射ƒ : χ\chi → yy假定输入x和输出y之间有线性相关关系测试/预测阶段对于给定的x，预测其输出y^=f(x)=wTx+b\hat{y}=f( x)=w^Tx+b （可以利用最小二乘法对w和b进行估计）分类根据自变量个数可

2018-01-19 22:44:51 479

原创机器学习系列——机器学习三大类

根据机器学习的应用，一般说来，机器学习有三种算法：监督式学习（Supervised Learning， SL）监督学习是指原始数据中既有特征值也有标签值的机器学习。用输入层的数据计算输出层的值，然后对比标签值计算误差，再通过迭代找到最佳模型参数。所谓机器学习就是指对已知数据不断迭代从而找到最佳参数的过程。属于监督式学习的算法有：KNN、回归模型，决策树，随机森林，K邻近算法，逻辑回归、SVM等。无监

2018-01-19 15:22:24 13549 1

原创用python3读csv文件，出现UnicodeDecodeError: 'utf-8' codec can't decode byte 0xd0 in position 0: invalid con

使用pd.read_csv()读csv文件时，出现如下错误：UnicodeDecodeError: ‘utf-8’ codec can’t decode byte 0xd0 in position 0: invalid continuation byte出现原因：文件不是 UTF8 编码的，而系统默认采用 UTF8 解码。解决方法是改为对应的解码方式。解决办法：找到csv文件–》右键–》打开方式–

2018-01-05 10:35:56 169941 73

原创用spark做web日志分析

本文以服务器日志分析为例，给大家展示真实场景中，怎么用pySpark去完成大数据的处理和分析的。总述这里的应用主要包括4部分： Part 1: Apache Web服务器日志格式 Part 2: web服务器日志初步解析 Part 3: web服务器日志进一步解析和可视化 Part 4: 对返回404的结果做分析part 1 Apache Web服务器日志格式这里用到的服务器日志格式是 Ap

2018-01-04 15:36:02 6203

原创 Spark SQL及实例

什么是Spark SQLSpark SQL是Apache Spark用于处理结构化数据的模块。Spark SQL允许使用SQL或熟悉的DataFrame API查询Spark程序内的结构化数据。Spark SQL支持多语言编程包括Java、Scala、Python和R，可以根据自身喜好进行选择。本文中所涉及的Spark SQL代码示例均使用python语言。Spark SQL的核心-DataFram

2017-12-27 19:14:54 11740 2

原创 spark算子实战（三）

这篇文章将继续介绍spark算子之Actions算子。Actions算子算子说明 foreach 对RDD中的每个元素应用f函数。 saveAsTextFile 将RDD保存为文本文件。路径path可以是本地路径或HDFS地址，保存方法是对RDD成员调用toString函数。 saveAsObjectFile 用于将RDD中的元素序列化成对象，存储到文件中。对于HD

2017-12-27 11:53:18 588

原创 spark算子实战（二）

在spark算子实战中介绍了Value型Transformation算子，这里将继续介绍Key-Value型Transformation算子，Actions算子将在spark算子实战（三）中介绍。Key-Value型的Transformation算子算子说明 mapValues 针对[K,V]型的V值进行map操作。 combineByKey 使用用户设置好的聚合函数对每个

2017-12-25 19:05:06 717

原创 spark算子实战

spark算子什么是算子百度百科上对算子的解释是这样的，算子是一个函数空间到函数空间上的映射O：X→X。广义的讲，对任何函数进行某一项操作都可以认为是一个算子，甚至包括求幂次，开方都可以认为是一个算子，只是有的算子我们用了一个符号来代替他所要进行的运算罢了，所以大家看到算子就不要纠结，他和f(x)的f没区别，它甚至和加减乘除的基本运算符号都没有区别，只是他可以对单对象操作罢了(有的符号比如大于、小于

2017-12-21 16:27:58 666

原创在notebook中使用pyspark遇到的问题

代码：from pyspark import SparkContextsc = SparkContext()rdd.getNumPartitions()rdd.glom().collect()遇到的问题：执行rdd.glom().collect()时出现如下错误：Py4JJavaError: An error occurred while calling z:org.apache.spar

2017-12-20 19:04:57 7780

原创 jupyter安装及配置scala、spark、pyspark内核

安装 jupyter和python本文使用Anaconda安装jupyter。 Anaconda可以看做Python的一个集成安装，安装它后就默认安装了python、IPython、集成开发环境Spyder和众多的包和模块也可参照https://docs.anaconda.com/anaconda/install/linux进行安装下载 AnacondaAnaconda的官网下载地址https:/

2017-12-20 14:55:36 14003 2

原创 spark分布式集群环境搭建（hadoop之上）

本文介绍的spark环境搭建是基于hadoop之上的，hadoop集群环境搭建在之前的文章中已经介绍过，请前往查看。scala安装scala下载wget https://downloads.lightbend.com/scala/2.12.4/scala-2.12.4.tgz具体的版本可去官网http://www.scala-lang.org/download/根据实际情况选安装和配置scalata

2017-12-19 16:00:46 2971

原创 hadoop集群环境搭建

前言本文只介绍hadoop集群环境的搭建，hadoop单机配置和hadoop伪分布配置将在hadoop安装教程中介绍环境本教程使用ubuntu16.04作为操作系统 hadoop版本为hadoop-2.8.2（可自行下载其他版本）因本人电脑配置原因，暂选2个节点作为集群环境节点名称操作系统 ip master ubuntu 192.168.78.139 salve

2017-12-19 15:37:24 1077

转载梯度下降小结

在求解机器学习算法的模型参数，即无约束优化问题时，梯度下降（Gradient Descent）是最常采用的方法之一，另一种常用的方法是最小二乘法。这里就对梯度下降法做一个完整的总结。1. 梯度　　　　在微积分里面，对多元函数的参数求∂偏导数，把求得的各个参数的偏导数以向量的形式写出来，就是梯度。比如函数f(x,y), 分别对x,y求偏导数，求得的梯度向量就是(∂f/∂x, ∂f/∂

2017-11-08 12:34:32 272

原创 map-reduce练习

练习1：有如下的数据，其中第一列为用户ID，后面数列为他的朋友IDA B C D E FB A H C D E IC B E G A JD A B E E H A B C D GF A J GG C E F IH B J EI G BJ H C F编写map-reduce任务完成：找到所有有共同朋友的用户ID对生成格式为 (用户ID,

2017-11-03 17:10:20 575

转载 shell脚本三大文本处理工具

[-]目录一简介二grep命令格式选项grep与正则表达式结合egrep和fgrep三sed命令sed命令基本用法sed文本定位sed基本编辑命令sed高级编辑命令四awk命令awk编程模型awk调用方法awk编程五总结一、简介 Bash Shell提供了功能强大的文件处理工具：sed（流编辑器stream editor）和aw

2017-10-12 17:13:16 4587

原创 shell脚本基础知识二

主要介绍shell脚本中的函数循环及数组

2017-10-10 18:52:57 711

原创 shell脚本基础知识一

shell脚本基础知识：变量、判断、循环等

2017-10-10 09:49:30 1127

原创 jupyter notebook的安装与使用

最近开始学习机器学习，发现一个非常实用的python交互式编程工具jupter notebook，下面就用2w+1h（what+why+how）一、什么是jupyter notebook（what）jupyter Notebook（此前被称为 IPython notebook）是一个交互式笔记本，支持运行 40 多种编程语言。 Jupyter Notebook 的本质是一个 Web 应

2017-10-08 10:52:35 9168 3

转载 hadoop体系结构及搭建

用于测试，我用4台虚拟机搭建成了Hadoop结构我用了两个台式机。一个xp系统，一个win7系统。每台电脑装两个虚拟机，要不然内存就满了。 1、安装虚拟机环境 Vmware，收费产品，占内存较大。或 Oracle的VirtualBox，开源产品，占内存较小，但安装ubuntu过程中，重启会出错。我选Vmware。 2、安装

2016-12-30 17:21:00 618

moledyzhang的博客