
技术层-spark
文章平均质量分 70
小丁丁_ddxdd
这个作者很懒,什么都没留下…
展开
-
sparkR-入门知识
一、sparkR的简介SparkR是一个R语言包,它提供了轻量级的方式使得可以在R语言中使用Apache Spark。在Spark 1.4中,SparkR实现了分布式的data frame,支持类似查询、过滤以及聚合的操作(类似于R中的data frames:dplyr),但是这个可以操作大规模的数据集。二、使用spark的两种方式1.在sparkR的she转载 2016-07-09 18:55:29 · 5734 阅读 · 1 评论 -
Spark机器学习库(MLlib)官方指南手册中文版
来源:http://blog.youkuaiyun.com/liulingyuan6/article/details/53582300Spark机器学习库(MLlib)指南 MLlib是Spark里的机器学习库。它的目标是使实用的机器学习算法可扩展并容易使用。它提供如下工具: 1.机器学习算法:常规机器学习算法包括分类、回归、聚类和协同过滤。转载 2017-04-24 13:20:43 · 943 阅读 · 0 评论 -
Pipeline详解及Spark MLlib使用示例(Scala/Java/Python)
来源:http://blog.youkuaiyun.com/liulingyuan6/article/details/53576550本文中,我们介绍机器学习管道的概念。机器学习管道提供一系列基于数据框的高级的接口来帮助用户建立和调试实际的机器学习管道。管道里的主要概念 MLlib提供标准的接口来使联合多个算法到单个的管道或者工作流,管道的概念源于scikit-转载 2017-04-24 13:57:50 · 2074 阅读 · 0 评论 -
二十种特征变换方法及Spark MLlib调用实例(Scala/Java/python)(二)
来源:http://blog.youkuaiyun.com/liulingyuan6/article/details/53410832VectorIndexer算法介绍: VectorIndexer解决数据集中的类别特征Vector。它可以自动识别哪些特征是类别型的,并且将原始值转换为类别指标。它的处理流程如下:1.获得一个向量类型的输入以及maxCa转载 2017-04-24 14:08:05 · 1228 阅读 · 0 评论 -
三种特征选择方法及Spark MLlib调用实例(Scala/Java/python)
来源:http://blog.youkuaiyun.com/liulingyuan6/article/details/53413728VectorSlicer算法介绍: VectorSlicer是一个转换器输入特征向量,输出原始特征向量子集。VectorSlicer接收带有特定索引的向量列,通过对这些索引的值进行筛选得到新的向量集。可接受如下两种索引1转载 2017-04-24 14:29:33 · 1200 阅读 · 0 评论 -
厦大spark----Spark MLlib介绍
来源:http://mocom.xmu.edu.cn/article/show/584816afe083c990247075a2/0/1一、什么是机器学习机器学习可以看做是一门人工智能的科学,该领域的主要研究对象是人工智能。机器学习利用数据或以往的经验,以此优化计算机程序的性能标准。一种经常引用的英文定义是:A computer program is said to l转载 2017-04-24 14:53:10 · 1706 阅读 · 0 评论 -
Spark程序运行常见错误解决方法以及优化
来源:http://blog.youkuaiyun.com/sdujava2011/article/details/49796439一.org.apache.spark.shuffle.FetchFailedException1.问题描述这种问题一般发生在有大量shuffle操作的时候,task不断的failed,然后又重执行,一直循环下去,非常的耗时。转载 2017-04-24 16:43:11 · 1034 阅读 · 0 评论 -
厦大spark-----MLlib基本数据类型(1)
来源:http://mocom.xmu.edu.cn/article/show/58481eb2e083c990247075a5/0/1MLLib提供了一序列基本数据类型以支持底层的机器学习算法。主要的数据内心包括:本地向量、标注点(Labeled Point)、本地矩阵、分布式矩阵等。单机模式存储的本地向量与矩阵,以及基于一个或多个RDD的分布式矩阵。其中本地向量与本地矩阵作为公转载 2017-04-24 22:07:30 · 705 阅读 · 0 评论 -
spark厦大---MLlib基本数据类型(2)
来源:http://mocom.xmu.edu.cn/article/show/58482057e083c990247075a7/0/1四、分布式矩阵(Distributed Matrix)分布式矩阵由长整型的行列索引值和双精度浮点型的元素值组成。它可以分布式地存储在一个或多个RDD上,MLlib提供了三种分布式矩阵的存储方案:行矩阵RowMatrix,索引行矩阵Ind转载 2017-04-25 08:24:22 · 672 阅读 · 0 评论 -
spark厦大----基本的统计工具(1) - spark.mllib
来源:http://mocom.xmu.edu.cn/article/show/58482e8be083c990247075a8/0/1给定一个数据集,数据分析师一般会先观察一下数据集的基本情况,称之为汇总统计或者概要性统计。一般的概要性统计用于概括一系列观测值,包括位置或集中趋势(比如算术平均值、中位数、众数和四分位均值),展型(比如四分位间距、绝对偏差和绝对距离偏差、各阶矩等),统计离转载 2017-04-25 13:35:14 · 565 阅读 · 0 评论 -
spark厦大----基本的统计工具(2) - spark.mllib
来源:http://mocom.xmu.edu.cn/article/show/584d1fc5bd8177b41ebbd8bc/0/1五、假设检验 Hypothesis testing Spark目前支持皮尔森卡方检测(Pearson’s chi-squared tests),包括“适配度检定”(Goodness of fit)以及“独立性检定”(independenc转载 2017-04-25 13:53:26 · 1089 阅读 · 0 评论 -
spark厦大---奇异值分解(SVD)
来源:http://mocom.xmu.edu.cn/article/show/586279a4aa2c3f280956e7ad/0/1MLlib中的特征降维方法降维(Dimensionality Reduction) 是机器学习中的一种重要的特征处理手段,它可以减少计算过程中考虑到的随机变量(即特征)的个数,其被广泛应用于各种机器学习问题中,用于消除噪声、对抗数据稀疏转载 2017-04-27 22:22:09 · 1217 阅读 · 0 评论 -
spark厦大-------主成分分析(PCA)
来源:http://mocom.xmu.edu.cn/article/show/58627a2faa2c3f280956e7ae/0/1二、主成分分析(PCA)1、概念介绍主成分分析(PCA) 是一种对数据进行旋转变换的统计学方法,其本质是在线性空间中进行一个基变换,使得变换后的数据投影在一组新的“坐标轴”上的方差最大化,随后,裁剪掉变换后方差很小的“坐标轴”,剩下的新转载 2017-04-27 22:26:38 · 1598 阅读 · 0 评论 -
Spark MLlib之矩阵
来源:http://blog.youkuaiyun.com/qq_33938256/article/details/52584964Spark MLlib的底层组件BLAS/LAPACK层LAPACK是用Fortran编写的算法库,顾名思义,Linear Algebra Package是为了解决通用的线性代数问题。算法包BLAS(Basic Linear Algebra Subprograms转载 2017-06-02 08:06:39 · 479 阅读 · 0 评论 -
sparkmllib矩阵向量
来源:http://blog.youkuaiyun.com/illbehere/article/details/53165380Spark MLlib底层的向量、矩阵运算使用了Breeze库,Breeze库提供了Vector/Matrix的实现以及相应计算的接口(Linalg)。但是在MLlib里面同时也提供了Vector和Linalg等的实现。使用需导入:import b转载 2017-06-02 08:11:23 · 555 阅读 · 0 评论 -
Spark中组件Mllib的学习16之分布式行矩阵的四种形式
来源:http://blog.youkuaiyun.com/xubo245/article/details/51483995更多代码请见:https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之基础概念篇 1解释 分布式行矩阵有:基本行矩阵、index 行矩阵、坐标行矩阵、块行矩阵 功能一次增加2.代码:/转载 2017-06-02 08:41:26 · 487 阅读 · 0 评论 -
sparksteaming---实时流计算Spark Streaming原理介绍
来源:http://www.cnblogs.com/shishanyuan/p/4747735.html1、Spark Streaming简介1.1 概述Spark Streaming 是Spark核心API的一个扩展,可以实现高吞吐量的、具备容错机制的实时流数据的处理。支持从多种数据源获取数据,包括Kafk、Flume、Twitter、ZeroMQ、Kinesis 以转载 2017-09-13 18:31:03 · 7382 阅读 · 0 评论 -
spark厦大---决策树分类器 -- spark.ml
来源:http://mocom.xmu.edu.cn/article/show/58667ae3aa2c3f280956e7b0/0/1一、方法简介 决策树(decision tree)是一种基本的分类与回归方法,这里主要介绍用于分类的决策树。决策树模式呈树形结构,其中每个内部节点表示一个属性上的测试,每个分支代表一个测试输出,每个叶节点代表一种类别。学习时利用训练数转载 2017-05-04 22:52:24 · 2014 阅读 · 0 评论 -
spark厦大----逻辑斯蒂回归分类器--spark.ml
来源:http://mocom.xmu.edu.cn/article/show/586679ecaa2c3f280956e7af/0/1方法简介 逻辑斯蒂回归(logistic regression)是统计学习中的经典分类方法,属于对数线性模型。logistic回归的因变量可以是二分类的,也可以是多分类的。基本原理logistic分布 设X是连续随机变量,X转载 2017-05-04 22:45:39 · 2223 阅读 · 0 评论 -
spark-机器学习及SparkMLlib简介
1、机器学习概念1.1 机器学习的定义在维基百科上对机器学习提出以下几种定义:l“机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能”。l“机器学习是对能通过经验自动改进的计算机算法的研究”。l“机器学习是用数据或以往的经验,以此优化计算机程序的性能标准。” 一种经常引用的英文定义是:A转载 2016-07-27 23:38:45 · 2648 阅读 · 0 评论 -
Spark-Spark及其生态圈简介
来源:http://www.cnblogs.com/shishanyuan/p/4700615.html1、简介1.1 Spark简介Spark是加州大学伯克利分校AMP实验室(Algorithms, Machines, and People Lab)开发通用内存并行计算框架。Spark在2013年6月进入Apache成为孵化项目,8个月后成为Apache顶级项目,速度之快足见过人之处转载 2016-07-09 17:15:28 · 1885 阅读 · 0 评论 -
Spark-Hadoop、Hive、Spark 之间是什么关系?
http://mp.weixin.qq.com/s?__biz=MzAwNzIzMDY5OA==&mid=2651424131&idx=1&sn=ae80ad83c3c2f16d406a03e9b47f44ca&scene=5&srcid=07309uszQbKFaBJxnKSwVRul#rd大数据本身是个很宽泛的概念,Hadoop生态圈(或者泛生态圈)基本上都是为了处理超过单机尺度的转载 2016-07-31 00:23:56 · 4664 阅读 · 0 评论 -
spark厦大----分类与回归 - spark.mllib
来源:http://mocom.xmu.edu.cn/article/show/584d1cf7bd8177b41ebbd8bb/0/1一、分类算法概述分类是一种重要的机器学习和数据挖掘技术。分类的目的是根据数据集的特点构造一个分类函数或分类模型(也常常称作分类器),该模型能把未知类别的样本映射到给定类别中的一种技术。分类的具体规则可描述如下:给定一组训练数据的集合T(Trai转载 2017-04-28 17:47:17 · 367 阅读 · 0 评论 -
spark厦大-----逻辑斯蒂回归分类器--spark.mllib
来源:http://mocom.xmu.edu.cn/article/show/58578f482b2730e00d70f9fc/0/1方法简介 逻辑斯蒂回归(logistic regression)是统计学习中的经典分类方法,属于对数线性模型。logistic回归的因变量可以是二分类的,也可以是多分类的。基本原理logistic分布 设X是连续随机转载 2017-04-29 22:16:14 · 679 阅读 · 0 评论 -
scala--三种文本特征提取(TF-IDF/Word2Vec/CountVectorizer)及Spark MLlib调用实例(Scala/Java/python)
来源:http://blog.youkuaiyun.com/liulingyuan6/article/details/53390949 Spark MLlib 提供三种文本特征提取方法,分别为TF-IDF、Word2Vec以及CountVectorizer其各自原理与调用代码整理如下:TF-IDF算法介绍: 词频-逆转载 2017-04-19 12:13:48 · 2160 阅读 · 0 评论 -
spark厦大----决策树分类器--spark.mllib
来源:http://mocom.xmu.edu.cn/article/show/585808932b2730e00d70fa02/0/1一、方法简介 决策树(decision tree)是一种基本的分类与回归方法,这里主要介绍用于分类的决策树。决策树模式呈树形结构,其中每个内部节点表示一个属性上的测试,每个分支代表一个测试输出,每个叶节点代表一种类别。学习时利用训练数据,转载 2017-04-30 23:05:39 · 775 阅读 · 0 评论 -
scala spark 机器学习初探
来源:http://www.cnblogs.com/realzjx/p/5854425.htmlTransformer: 是一个抽象类包含特征转换器, 和最终的学习模型, 需要实现transformer方法 通常transformer为一个RDD增加若干列, 最终转化成另一个RDD, 1. 特征转换器通常处理一个dataset, 把其中一列数据转化成一列新的数据。 并且把新的数转载 2017-04-19 22:01:54 · 573 阅读 · 0 评论 -
MLlib--多层感知机(MLP)算法原理及Spark MLlib调用实例(Scala/Java/Python)
来源:http://blog.youkuaiyun.com/liulingyuan6/article/details/53432429多层感知机算法简介: 多层感知机是基于反向人工神经网络(feedforwardartificial neural network)。多层感知机含有多层节点,每层节点与网络的下一层节点完全连接。输入层的节点代表输入数据,其他层的节转载 2017-05-12 09:06:55 · 2270 阅读 · 0 评论 -
spark厦大-----协同过滤算法 -- spark.mllib包
来源:http://mocom.xmu.edu.cn/article/show/586cac76aa2c3f280956e7b2/0/1一、方法简介 协同过滤是一种基于一组兴趣相同的用户或项目进行的推荐,它根据邻居用户(与目标用户兴趣相似的用户)的偏好信息产生对目标用户的推荐列表。关于协同过滤的一个经典的例子就是看电影。如果你不知道哪一部电影是自己喜欢的或者评分比较高的,转载 2017-05-03 22:34:10 · 518 阅读 · 0 评论 -
spark厦大----KMeans聚类算法 -- spark.mllib
来源:http://mocom.xmu.edu.cn/article/show/586df21caa2c3f280956e7b3/0/1聚类(Clustering) 是机器学习中一类重要的方法。其主要思想使用样本的不同特征属性,根据某一给定的相似度度量方式(如欧式距离)找到相似的样本,并根据距离将样本划分成不同的组。聚类属于典型的无监督学习(Unsupervised Learn转载 2017-05-03 22:48:52 · 2186 阅读 · 0 评论 -
spark厦大---机器学习工作流(ML Pipelines)—— spark.ml包
来源:http://mocom.xmu.edu.cn/article/show/5858a6062b2730e00d70fa06/0/1一个典型的机器学习过程从数据收集开始,要经历多个步骤,才能得到需要的输出。这非常类似于流水线式工作,即通常会包含源数据ETL(抽取、转化、加载),数据预处理,指标提取,模型训练与交叉验证,新数据预测等步骤。在介绍工作流之前,我们先来了解几个转载 2017-05-04 22:39:23 · 1244 阅读 · 0 评论 -
spark厦大----特征抽取: TF-IDF -- spark.ml
来源:http://mocom.xmu.edu.cn/article/show/58588d4e2b2730e00d70fa03/0/1这一部分我们主要介绍和特征处理相关的算法,大体分为以下三类:特征抽取:从原始数据中抽取特征特征转换:特征的维度、特征的转化、特征的修改特征选取:从大规模特征集中选取一个子集特征抽取 Feature ExtractorsTF-IDF (H转载 2017-05-04 22:41:00 · 1469 阅读 · 0 评论 -
spark厦大---特征抽取:CountVectorizer -- spark.ml
来源:http://mocom.xmu.edu.cn/article/show/587f1974aa2c3f280956e7bb/0/1CountVectorizer和CountVectorizerModel旨在通过计数来将一个文档转换为向量。当不存在先验字典时,Countvectorizer可作为Estimator来提取词汇,并生成一个CountVectorizerModel转载 2017-05-04 22:41:57 · 1825 阅读 · 0 评论 -
spark厦大---Word2Vec--spark.ml
来源:http://mocom.xmu.edu.cn/article/show/587f103faa2c3f280956e7b6/0/1Word2Vec 是一种著名的 词嵌入(Word Embedding) 方法,它可以计算每个单词在其给定语料库环境下的 分布式词向量(Distributed Representation,亦直接被称为词向量)。词向量表示可以在一定程度上刻画转载 2017-05-04 22:43:05 · 2954 阅读 · 0 评论 -
spark厦大---标签和索引的转化:StringIndexer- IndexToString-VectorIndexer
来源:http://mocom.xmu.edu.cn/article/show/587f11deaa2c3f280956e7ba/0/1Spark的机器学习处理过程中,经常需要把标签数据(一般是字符串)转化成整数索引,而在计算结束又需要把整数索引还原为标签。这就涉及到几个转换器:StringIndexer、 IndexToString,OneHotEncoder,以及针对类别特转载 2017-05-04 22:44:16 · 2050 阅读 · 0 评论 -
spark----基于Python的Spark Streaming+Kafka编程实践
来源:http://blog.youkuaiyun.com/eric_sunah/article/details/54096057?utm_source=tuicool&utm_medium=referral说明Spark Streaming的原理说明的文章很多,这里不做介绍。本文主要介绍使用Kafka作为数据源的编程模型,编码实践,以及一些优化说明spark streaming:ht转载 2017-09-25 11:30:44 · 2468 阅读 · 0 评论