- 博客(21)
- 资源 (1)
- 收藏
- 关注
翻译 Spark ML 2.1 -- Extracting, transforming and selecting features (持续更新)
本章节覆盖特征相关的算法部分,可粗分为以下几组: 1> 抽取: 从原始数据中抽取特征2> 变换:缩放,转化,或修改特征3> 选择: 从特征集合中选择子集4> Locality Sensitive Hashing (LSH) : 将特征变换和其它算法组合在一起的一类算法。目录: Feature ExtractorsTF-IDFWord2VecCo
2017-05-02 22:44:23
895
翻译 Spark ML 2.1 --Pipelines
首先要引入概念 机器学习管道(ML pipelines),ML pipelines 提供基于DataFrames的高级API , 此API可以帮忙开发者创建和实践ML 管道。Table of ContentsMain concepts in PipelinesDataFramePipeline componentsTransformersEstimato
2017-04-29 13:05:43
1377
原创 Spark2.X 原码分析 ---- Rpc初探
Spark 2.0 之后,master 和worker 之间完全不使用akka 通信,改用netty实现。先不说别的,单就netty的热门度就可以承担起这个重任,言归正题。本文以master代码为例,讲解RpcEnv , RpcEndpoint ,RpcEndpointRef , 及NettyRpcEnv, NettyRpcEndpointRef 之间关系。先呈上org.a
2017-04-16 14:17:33
1302
翻译 Spark 2.1 -- spark SQL , Dataframe 和DataSet 指南
OverviewSQLDatasets and DataFramesGetting StartedStarting Point: SparkSessionCreating DataFramesUntyped Dataset Operations (aka DataFrame Operations)Running SQL Queries ProgrammaticallyGloba
2017-03-29 23:56:50
10904
原创 CDH hbase 开启kerberos
1 CDH 开启kerberos 认证 ,详见: CDH官方文档注意需要更新 $JAVA_HOME/jre/lib/security/ 下 local_policy.jar , US_export_policy.jar2 注意到hbase 需要访问zookeeper ,因此依赖于zookeeper 的sasl认证, 下面需要配置zookeeper 2.1 生成ke
2017-03-29 20:40:47
4751
翻译 Spark 2.1.0 -- Spark Streaming Programming Guide
概述spark streaming 是核心spark api的扩展,提供可伸缩、高吞吐和容错的流处理接口,用来处理实时在线流数据。流数据的输入源可以是kafka, flume , kinesis 或tcp sockets,流数据处理可以用map ,reduce , join 和window表达的复杂算法。甚至,可以对流数据使用spark 机器学习或图处理算法。最终处理结果可以直接写到文件系统、
2017-03-11 00:52:35
918
原创 Scala 开发简单mapreduce 程序
看到这篇文章,肯定会有人问,“为什么要用scala来写MR, java写不是更自然?” 关于这个我问题,我个人的原因是: scala 写代码很简洁,而且我很享受这种体验。对于其它scala程序员来说,可能是因为所有项目都是用scala写,而且写scala更熟练些。对于这部分人非得用MR来解决的问题,那他一定有很充分的理由。 归正题吧, 下面讲讲用如何上手操作吧!! 鉴于大家使用的I
2016-09-25 01:26:03
5805
翻译 Spark MLlib 1.6 -- 频度模式挖掘
挖掘频繁关联物品,频繁关联物品集,频繁关联子序列,或其它子结构是分析海量数据的第一步,并且连续几年作为数据挖掘主要研究方向。此处引用维基中关联规则学习(http://en.wikipedia.org/wiki/Association_rule_learning)作为本章节基础。spark.mllib提供并行FP-growth算法,这个算法经常用于挖掘频度物品集。 8.1 FP-grow
2016-03-22 13:05:34
3792
翻译 Spark MLlib 1.6 -- 特征抽取和变换
· TF-IDF· Word2Vec· Model· Example· StandardScaler· Model Fitting· Example· Normalizer· Example· ChiSqSelector· Model Fitting·
2016-03-21 12:50:35
3777
原创 vim + scala 开发环境
vim 工具vim是一个很好用的工具,小巧精干的代码编辑器,怪不得很多人奉为"编辑器之神".IDE写代码,除了代码调试功能外,其它的功能vim都可以实现,并且vim不会占很多内存,所以,写代码使用vim完全“够用”。下面整理了一下网上关于用vim+scala开发代码环境的配置1 ctags 安装下载ctags-X.X.tar./configure && make
2016-03-13 00:26:41
3703
翻译 apache Nifi 概述
Apache NiFi Teamdev@nifi.apache.orgTable of ContentsWhatis Apache NiFi?Thecore concepts of NiFiNiFiArchitecturePerformanceExpectations and Characteristics of NiFi
2016-03-06 21:14:18
4861
翻译 Spark MLlib 1.6 -- 降维
· Singular value decomposition (SVD)· Performance· SVD Example· Principal component analysis (PCA)降维是在计算过程中减少计算量,降低计算复杂度的方法。把特征向量中可以乎略的部分或噪音部分剔除,也可以是保持特征向量主要特征的前提下对向量维度进行压缩。S
2016-02-29 12:10:14
2652
翻译 Spark MLlib 1.6 -- 聚类
聚类是根据某种相似度量,将‘相似’的样本划分到同一个子类中,所以聚类是一种无监督学习。聚类常用于探索分析,或(和)看作分层监督学习管道上一个环节(在这个管道上,对每个聚类结果再深入进行分类或回归)。Spark.mllib包支持以下模型:· K-means· Gaussian mixture· Power iteration clustering (PIC)·
2016-02-26 17:35:59
3722
翻译 Spark MLlib 1.6 -- 协同过滤
· Collaborative filtering· Explicit vs. implicit feedback· Scaling of the regularization parameter· Examples· Tutorial 4.1 协同过滤算法协同过滤算法主要用于推荐系统中,推荐系统用于给用户和物品之间建立实体关系。Spark
2016-02-24 13:11:32
1509
翻译 Spark MLlib 1.6 -- 分类和回归篇
· Linear models· classification (SVMs, logistic regression)· linear regression (least squares, Lasso, ridge)· Decision trees· Ensembles of decision trees· random forests· gradient-boost
2016-02-19 21:42:19
4194
翻译 Spark MLlib 1.6 -- 统计基础篇
· Summary statistics· Correlations· Stratified sampling· Hypothesis testing· Streaming Significance Testing· Random data generation· Kernel density estimation2.1 统计概览在Statistic
2016-02-19 21:13:24
2529
翻译 Spark MLlib 1.6 -- 数据类型篇
译者续: 2016年过完年回来,把之前翻译spark mllib部分从新整理,继续未完成的工作。 MLlib 是spark 机器学习的库,它的目标是使机器学习算法能更容易上手。这个库包含通用学习算法和工具集,包括:分类,回归,聚类,协同过滤,降维,以及深层优化策略和上层管道API(pipeline). 分为两个包:1 spark.mllib 包含基于RDD的原始A
2016-02-19 21:10:29
1666
转载 Scala - Type parameterization
过年在家看 chapter 19 Type Parameterization , 一直就没有看明白,收假回来正好自己研究了一下这个type parameterization下面给出网上几篇文章,供同样有困惑的同学,更好理解这一章节内容.1 scala 官方文档generic class 和 Variances ,可以快速理解泛型类的特性,以及为什么引出vari
2016-02-15 17:16:33
668
原创 决策树
决策是机器学习中分类算法中一种,因为经实验样本训练出一个类似树形的决策规则而由此得名。这种分类算法虽然简单,但是在人类的模式识别中也经常用到,比如给出一个矩形,我们首先判断这是一个平面图形,进而判断这个图形每两条边平行,并且长和宽相等,最终得出矩形。这个算法有一个缺点,就是不能自学习,即只能识别已经学习到的模式,对于新的模式,此算法很可能无法正确做出判断。在讲到决策树之前,给出信息熵及相关的一
2016-01-21 00:35:11
535
翻译 spark 1.6 MLlib
MLlib 是spark 机器学习的库,它的目标是使机器学习算法能更容易上手。这个库包含通用学习算法和工具集,包括:分类,回归,聚类,协同过滤,降维,以及深层优化策略和上层管道API(pipeline). 分为两个包:1 spark.mllib 包含基于RDD的原始API 2 spark.ml 包含上层操作DataFrame 的API, 可以构造机器学习管道, 推荐使用sp
2016-01-19 21:26:52
2714
翻译 Spark SQL and DataFrames Version 1.6
总述 Spark SQL 是处理结构化数据的模块,而DataFrames是它提供上的一种数据抽象,这个抽象数据上可以进行分布式SQL查询。 Spark SQL也可以从已有hive中读取数据,关于详细配置请见Hive Tables章节。一 DataFrames DataFrame是一种分布式的数据集,这个数据集按列组织在一起。基本上可以等价于关系数据库中表,或R/Python中
2015-12-19 21:23:07
2675
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人