
spark
文章平均质量分 69
codemosi
hadoop hive hbase mahout storm spark kafka flume,等连载中,做个爱分享的人。
干一件事,干好一件事!
QQ :1606588828
展开
-
02-大数据内存计算spark系列贴-spark介绍、spark程序
有hadoop上经验的人知道,hadoop上有mapreduce可以分析。spark可以像,hadoop中的mapreduce那样做数据分析。spark提供了比hadoop的map(),reduce()更多的函数来分析,并且在内存中运算(基于RDD),速度比hadoop的mapreduce快。程序员都喜欢从代码入手,不喜欢听故事。package cn.ffcs.rd原创 2014-12-15 10:00:20 · 1687 阅读 · 0 评论 -
转载lr spark细节
原创文章,转载请注明: 转载自http://www.cnblogs.com/tovin/p/3816289.html 本文以spark 1.0.0版本MLlib算法为准进行分析一、代码结构逻辑回归代码主要包含三个部分1、classfication:逻辑回归分类器2、optimization:优化方法,包含了随机梯度、LBFGS两种算法转载 2016-02-22 17:30:22 · 1255 阅读 · 0 评论 -
转lr
逻辑回归作为分类算法的一种,在互联网领域中的预测、判别中应用的非常广泛,像广告投放中的点击率预估,推荐算法中的模型融合等等。本文简要介绍逻辑回归的算法,以及在MLlib中的实现解析。逻辑回归其实是一个分类问题,此类问题的模型训练,基本上分3步骤,第一步要寻找假设预测函数h,构造的假设函数为在线性回归的函数基础上,加上一个Sigmoid函数进行Norm,把函数值输出在转载 2016-02-22 17:31:55 · 537 阅读 · 0 评论 -
斯坦福大学lr
1.分类问题 判断一封邮件是否为垃圾邮件,判断肿瘤是良性的还是恶性的,这些都是分类问题。在分类问题中,通常输出值只有两个(一般是两类的问题,多类问题其实是两类问题的推广)(0叫做负类,1叫做正类)。给定一组数据,标记有特征和类别,数据如(x(i),y(i)),由于输出只有两个值,如果用回归来解决会取得非常不好的效果。 在良性肿瘤和恶性肿瘤的预测中,样本数据如下 上图是用线转载 2016-02-22 18:16:54 · 406 阅读 · 0 评论 -
斯坦福大学线性回归
本节内容主要包含单变量(One Variable)和求解costfunction的最优值的学习算法—梯度下降法(Gradientdescent)以及多变量(multipleVariable)的线性回归。1. 单变量的线性回归(Linear Regission with onevariable) 监督学习的样本中都含有对于每个输入变量的输出值,通过建立模型并且转载 2016-02-22 18:17:25 · 655 阅读 · 0 评论 -
斯坦福大学损失函数推导
1.线性回归CostFunction推导: 在线性回归中,Cost Function是,关于这个公式的推导,首先由一个假设,其中满足高斯分布,.那么根据得出在这里,把看成是随机变量,那么服从高斯分布,,对于给定的X,theta要估计y的分布是怎么样的,极大似然估计函数为:转载 2016-02-22 18:18:18 · 1304 阅读 · 0 评论 -
mllib基础
此部分主要关于MLlib的基础数据结构1、本地向量MLlib的本地向量主要分为两种,DenseVector和SparseVector,顾名思义,前者是用来保存稠密向量,后者是用来保存稀疏向量,其创建方式主要有一下三种(三种方式均创建了向量(1.0, 0.0, 2.0):[plain] view plain copyimport o转载 2016-02-22 21:37:15 · 664 阅读 · 0 评论 -
Spark MLlib Statistics统计
2015-05-11 15:441、Spark MLlib Statistics统计Spark Mllib 统计模块代码结构如下:1.1 列统计汇总计算每列最大值、最小值、平均值、方差值、L1范数、L2范数。 //读取数据,转换成RDD[Vector]类型 val data_path = "/home/jb-huangme转载 2016-02-22 21:39:21 · 835 阅读 · 0 评论 -
Spark:Yarn-cluster和Yarn-client区别与联系
我们都知道Spark支持在yarn上运行,但是Spark on yarn有分为两种模式yarn-cluster和yarn-client,它们究竟有什么区别与联系?阅读完本文,你将了解。Spark支持可插拔的集群管理模式(Standalone、Mesos以及YARN),集群管理负责启动executor进程,编写Spark application的人根本不需要知道Spark用的是什么集群管理。转载 2016-02-24 13:46:56 · 575 阅读 · 0 评论 -
Tachyon更名为 Alluxio,并发布1.0版本
【摘要】近日,人气开源分布式内存文件系统Tachyon正式更名为Alluxio,并发布了1.0版本。自从Alluxio的第一个开源版本发布之后,我们社区的人数从1个迅速增加到200多个,这200多人来自50多个公司,这些公司将Alluxio部署到由成百上千机器构成的生产环境中。Alluxio(前Tachyon)起源于我读博期间在 UC Berkeley AMPLab实验室的一个研究项目转载 2016-02-24 13:47:39 · 3081 阅读 · 3 评论 -
变不可能为可能,Tachyon帮助Spark变小时级任务到秒
本文作者是Gianmario Spacagna和Harry Powell,Barclays的数据科学家。集群计算和大数据技术已经取得了很多进展,不过现在很多大数据应用使用的还是HDFS这一分布式分件系统。HDFS是一个基于磁盘的文件系统,将数据存储在磁盘上有一些问题,比如说面临法律的监管,由磁盘读写造成的延迟也比较高。要避免这些问题可以将处理过的数据暂时放在内存中。Tachyon就可以帮你转载 2016-03-04 17:21:45 · 733 阅读 · 0 评论 -
spark state(转)
许多复杂流处理流水线程序必须将状态保持一段时间,例如,如果你想实时了解网站用户行为,你需要将网站上各“用户会话(user session)”信息保存为持久状态并根据用户的行为对这一状态进行持续更新。这种有状态的流计算可以在Spark Streaming中使用updateStateByKey 方法实现。在Spark 1.6 中,我们通过使用新API mapWithState极大地增强对状态流转载 2016-02-17 20:33:15 · 1007 阅读 · 0 评论 -
spark rdd 算子
刚开始使用SPARK的同学都会因为文档说明简单无示例而导致前期开发效率较低,在网上有一位老师的博客给出了很详细的使用示例,我简单将其翻译成中文,自己顺便也熟悉一下没使用过的API。E文版一些注解:数据分片(partitions):执行在计算节点中的一份数据集合,包含多个数据单元以下为翻译内容:RDD的API示例RDD是弹性分布式数据集的简称,RDDs转载 2016-01-28 22:45:33 · 2761 阅读 · 0 评论 -
01-大数据内存计算spark系列贴-spark生态系统简介
spark来做。可以实现一种软件套,实现 1:批处理(spark对应mapreduce) 2:实时流计算(spark streaming对应storm) 3:基于SQL语义的数据仓库(shark对应hive),原创 2014-12-15 09:55:08 · 1034 阅读 · 0 评论 -
03-大数据内存计算spark系列贴-spark整合hbase,优化BI平台
(hadoop1.0生态圈的BI系统。由hive作为大头提供分析接口,整合hbase,在hbase上存储小部分信息,由hive来分析hbase的小部分信息)2.jpg (79.68 KB, 下载次数: 0)下载附件2014-8-29 10:01 上传(hadoop2.0生态圈+spark的BI系统。在分析接口上原创 2014-12-15 10:04:56 · 1458 阅读 · 0 评论 -
04大数据内存计算spark系列贴-SHARK(SQL on spark 0.x)
shark 相当于是hive on spark, 用法和hive 大致是一样的。还是一样。从代码开始。 1:创建表CREATE EXTERNAL TABLE user(DT STRING,username STRING,password STRING)ROW FORMAT DELIMITED FIELDS TERMINATED原创 2014-12-15 10:07:08 · 869 阅读 · 0 评论 -
05大数据内存计算spark系列贴-spark straming 流式计算
spark straming是spark软件栈中,用来处理流式数据的,增量数据如socket,目录中新增的文本文件,kafka队列里消息主题等,还是一样,从代码入手。流式增量数据的数据源,kafka生产者 val Array(brokers, topic, messagesPerSec, wordsPerMessage) = args // Zookepe原创 2014-12-15 10:08:40 · 1237 阅读 · 0 评论 -
06大数据内存计算spark系列贴-mllib 机器学习
商业理解 - 数据理解 - 数据准备 - 建立模型 - 模型评估 - 模型发布 数据挖掘是从海量数据中挖掘出有用的商业价值,如客户分类,新闻分类等。挖掘类型分为,聚类,分类,预测,关联。4种类型的挖掘任务。数据挖掘的过程 原始数据 --》 抽取特征向量 --》 训练模型 -》评估模型 -》 最终模型。 mllib是spark提供的用于数据挖掘的机器学习的原创 2014-12-15 10:09:28 · 1086 阅读 · 0 评论 -
07大数据内存计算spark系列贴-spark SQL
版本 spark 1.1.0spark SQL 简介 spark SQL 用来替代shark来,做基于spark内核的,面向结构化数据的的数据仓库。1.10支持 jdbc spark SQL查询的结构化数据(RDD,parquet,json),可以作为spark 的分布式的数据集(RDD),集成API在Python中,Scal原创 2014-12-15 10:10:18 · 1194 阅读 · 0 评论 -
01_spark1.3_RDD的开发
原创博客:http://blog.youkuaiyun.com/codemosi。辛辛苦苦记录,希望转发不要删这行。上个spark系列博客是0.9版本,也没带录视频,开始录制一个1.3的spark系列,以备忘,好记性不如烂笔头。本系列还是集中在开发部分。概念和集群运维不会涉及到。主要涉及spark RDD,spark SQL,spark Streaming,graphX,mllib.的开发,和A原创 2015-04-15 11:51:34 · 500 阅读 · 0 评论 -
Spark Streaming 订单关联案例剖析
发表于2015-08-03 14:45| 421次阅读| 来源未知| 0 条评论| 作者csdn摘要:Apache Spark 是加州大学伯克利分校的 AMPLabs 开发的开源分布式轻量级通用计算框架。由于 Spark 基于内存设计,使得它拥有比 Hadoop 更高的性能(极端情况下可以达到 100x),并且对多语言(Scala、Java、Python)提供支持。其一栈式转载 2015-09-15 21:44:17 · 4411 阅读 · 0 评论 -
01_spark回归开篇
早前spark0.9的时候研究过。没想到到了2016年,spark火成这样,现在spark都1.6了。走遍了大数据的软件一圈。发现其实最后真的是变成一套软件栈。不得不说。未来绝对是spark的天下。原创 2016-01-08 03:25:20 · 471 阅读 · 0 评论 -
Spark MLlib知识点学习整理
MLlib的设计原理:把数据以RDD的形式表示,然后在分布式数据集上调用各种算法。MLlib就是RDD上一系列可供调用的函数的集合。操作步骤:1、用字符串RDD来表示信息。2、运行MLlib中的一个特征提取算法来吧文本数据转换为数值的特征。给操作会返回一个向量RDD。3、对向量RDD调用分类算法,返回一个模型对象,可以使用该对象对新的数据点进行分类。4、使用转载 2016-02-25 10:47:09 · 912 阅读 · 0 评论