
X.1大数据
文章平均质量分 78
无
jediael_lu
没有
展开
-
spark之2:原理介绍
spark之2:原理介绍@(SPARK)[spark, 大数据]1、spark是一个基于内存计算的开源的集群计算系统,目的是让数据分析更加快速。因此运行spark的机器应该尽量的大内存,如96G以上。 2、spark所有操作均基于RDD,操作主要分成2大类:transformation与action。 3、spark提供了交互处理接口,类似于shell的使用。 4、spark可以优化迭代工作负原创 2017-08-11 14:38:03 · 995 阅读 · 0 评论 -
spark RDD详解及源码分析
spark RDD详解及源码分析@(SPARK)[spark]spark RDD详解及源码分析一基础一什么是RDD二RDD的适用范围三一些特性四RDD的创建1由一个已经存在的scala集合创建2由外部存储系统的数据创建五RDD的操作二RDD的缓存一缓存方式二缓存级别三序列化三窄依赖与宽依赖stage的划分依据一Dependency一窄依赖1NarrowDependen原创 2017-08-05 20:10:14 · 2620 阅读 · 0 评论 -
spark数据处理示例一:分类
spark数据处理示例一:分类@(SPARK)[spark, ML]spark数据处理示例一分类知识点1slice2NaN3mapValue4groupBy5state6isNaN7scala的range结构一REPL测试1数据准备2启动spark3读入数据并简单验证读入情况4去除标题行5提取行中的信息1定义缺失值的处理2提取行中的字段3以case类对象的形式返回分原创 2017-08-05 20:13:17 · 5567 阅读 · 0 评论 -
spark之3:安装部署
spark之3:安装部署@(SPARK)[spark, 大数据]spark之3安装部署一单机安装1环境准备2安装scala3安装spark4验证安装情况一、单机安装本文介绍安装spark单机环境的方法,可用于测试及开发。主要分成以下4部分: (1)环境准备 (2)安装scala (3)安装spark (4)验证安装情况1、环境准备(1)配套软件版本要求:Spark runs on原创 2017-08-11 14:37:35 · 1140 阅读 · 0 评论 -
spark1.3.1使用基础教程
spark可以通过交互式命令行及编程两种方式来进行调用:前者支持scala与python后者支持scala、python与java本文参考https://spark.apache.org/docs/latest/quick-start.html,可作快速入门再详细资料及用法请见https://spark.apache.org/docs/latest/programming-gu原创 2015-04-28 11:10:41 · 13566 阅读 · 1 评论 -
spark之4:基础指南(源自官方文档)
spark之4:基础指南(源自官方文档)@(SPARK)[spark, 大数据]spark之4基础指南源自官方文档一简介二接入Spark三初始化Spark一使用Shell四弹性分布式数据集RDDs一并行集合二外部数据集三RDD操作1基础操作2向Spark传递函数3理解闭包例子本地模式VS集群模式打印RDD中的元素4键值对的使用5转换6动作7洗牌操作背景性能影响原创 2017-08-10 11:10:15 · 645 阅读 · 0 评论 -
spark之1:快速入门
spark之1:快速入门@(SPARK)[spark, 大数据]spark可以通过交互式命令行及编程两种方式来进行调用: 前者支持scala与python 后者支持scala、python与java本文参考https://spark.apache.org/docs/latest/quick-start.html,可作快速入门再详细资料及用法请见https://spark.apache.org/d原创 2017-08-11 14:38:32 · 383 阅读 · 0 评论 -
RDD, DataFrame or Dataset
RDD, DataFrame or Dataset@(SPARK)[spark]文章主要内容来自: https://databricks.com/blog/2016/05/11/apache-spark-2-0-technical-preview-easier-faster-and-smarter.html http://www.agildata.com/apache-spark-rdd-vs-原创 2017-08-02 14:33:08 · 721 阅读 · 0 评论 -
spark on yarn
spark on yarn@(SPARK)[spark, 大数据](一)spark的运行模式spark可以根据需要运行在local, standalone, mesos和yarn四种模式。local会在本地起一个进程,所有任务均在此进程内运行,一般只用于验证代码,无实际工作意义standalone是yarn自带的一个资源管理器,可以方便的使用spark的集群功能。mesos是apache另一个原创 2017-08-06 21:40:38 · 873 阅读 · 0 评论 -
spark之13:提交应用的方法(spark-submit)
spark之13:提交应用的方法(spark-submit)@(SPARK)[spark, 大数据]参考自:https://spark.apache.org/docs/latest/submitting-applications.html常见的语法: ./bin/spark-submit \ --class <main-class> --master <master-url> \ --d原创 2017-08-10 11:12:33 · 1497 阅读 · 0 评论 -
线性回归原理与spark/sklearn实现
线性回归原理与spark/sklearn实现@(SPARK)[spark, ML]一、算法原理1、线程回归与逻辑回归的区别线性回归是一种很直观的数值拟合方式,它认为目标变量和属性值之间存在线性的关系。 逻辑回归是一种分类的方法,它给出一个拟合函数,将属性输入这个函数,大于某个值的属于一类,小于这个值的属于另一类。二、spark实现基于2.0.2版本1、准备数据 0 1:0 2:0原创 2017-08-14 12:00:43 · 2321 阅读 · 0 评论 -
spark原理介绍
1、spark是一个基于内存计算的开源的集群计算系统,目的是让数据分析更加快速。因此运行spark的机器应该尽量的大内存,如96G以上。2、spark所有操作均基于RDD,操作主要分成2大类:transformation与action。3、spark提供了交互处理接口,类似于shell的使用。4、spark可以优化迭代工作负载,因为中间数据均保存于内存中。5、spark 是在 Sc原创 2015-04-28 12:33:54 · 16866 阅读 · 0 评论 -
spark 2.x ML概念与应用
spark 2.x ML概念与应用@(SPARK)[spark]spark 2x ML概念与应用一基础1核心概念2Transformer3Estimator4Pileline5同一实例6保存模型二基本数据结构一核心概念1本地向量 LocalVecotr2向量标签 LabelVector3本地矩阵4分布式矩阵二libsvm数据格式3fittransform方法的参数DF包含原创 2017-08-01 10:44:59 · 3120 阅读 · 0 评论 -
spark之12:集群模式概述
spark之12:集群模式概述@(SPARK)[spark, 大数据]英文原文地址:https://spark.apache.org/docs/latest/cluster-overview.htmlspark之12集群模式概述组件集群管理器的类型提交应用监控作业调度术语ApplicationApplication jarDriver programCluster manager原创 2017-08-11 14:32:20 · 685 阅读 · 0 评论 -
spark提交应用的全流程分析
spark提交应用的全流程分析@(SPARK)[spark]本文分析一下spark的应用通过spark-submit后,如何提交到集群中并开始运行。先介绍一下spark从提交到运行的全流程,下面再详细分析。1、用户通过spark-submit脚本提交应用。2、spark-submit根据用户代码及配置确定使用哪个资源管理器,以及在合适的位置启动driver。3、driver与集群管理器(如YA原创 2017-08-05 20:08:14 · 6888 阅读 · 0 评论 -
spark之5:配置文件
spark之5:配置文件@(SPARK)[spark]一、spark的参数设置方式1、spark配置文件加载顺序spark按以下优先级加载配置文件: (1)用户代码中显式调用set()方法设置的选项 (2)通过spark-submit传递的参数 (3)配置文件中的值 (4)spark的默认值以下会分别介绍各种方式。2、set()方法val conf = new SparkConf() co原创 2017-08-05 20:14:44 · 1833 阅读 · 0 评论 -
spark之4:编程指南
spark之4:编程指南@(SPARK)[spark, 大数据](一)快速入门:基本步骤1、创建一个maven项目2、增加pom.xml中的依赖 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.10</artifactId> <version>1.原创 2017-08-11 14:34:28 · 441 阅读 · 0 评论 -
安装spark1.3.1单机环境
本文介绍安装spark单机环境的方法,可用于测试及开发。主要分成以下4部分:(1)环境准备(2)安装scala(3)安装spark(4)验证安装情况1、环境准备(1)配套软件版本要求:Spark runs on Java 6+ and Python 2.6+. For the Scala API, Spark 1.3.1 uses Scala 2.10. You wil原创 2015-04-27 14:52:59 · 29647 阅读 · 3 评论 -
spark 调度模块详解及源码分析
spark 调度模块详解及源码分析@(SPARK)[spark]spark 调度模块详解及源码分析一概述一三个主要的类1class DAGScheduler2trait TaskScheduler3trait SchedulerBackend二基本流程三TaskScheduler SchedulerBackend二DAGScheduler一用户代码中创建SparkContext对原创 2017-08-05 20:04:44 · 2339 阅读 · 1 评论 -
SPARK STREAMING之1:编程指南(翻译v1.4.1)
SPARK STREAMING之1:编程指南(翻译v1.4.1)@(SPARK)[spark, 大数据]SPARK STREAMING之1编程指南翻译v141概述快速入门例子基本概念Linking概述Spark Streaming是Spark核心API的一个扩展,它使得spark可扩展、高吞吐、可容错的对实时数据流进行处理。可以通过集成外部系统获取数据来源,如 Kafka, Flume,原创 2017-08-10 11:11:42 · 871 阅读 · 0 评论 -
storm-kafka源码分析
storm-kafka源码分析@(KAFKA)[kafka, 大数据, storm]storm-kafka源码分析一概述一代码结构二orgapachestormkafka三orgapachestormkafkatrident1spout2state3metric四其它说明1线程与分区二orgapachestormkafka一基础类1Broker2BrokerHosts3P原创 2017-08-13 20:09:22 · 4694 阅读 · 0 评论 -
关于kafka中的timestamp与offset的对应关系
关于kafka中的timestamp与offset的对应关系@(KAFKA)[storm, kafka, 大数据]关于kafka中的timestamp与offset的对应关系获取单个分区的情况同时从所有分区获取消息的情况结论如何指定时间出现UpdateOffsetException时的处理方法相关源码略读1入口2处理逻辑1建立offset与timestamp的对应关系并保存到数据中原创 2017-08-11 14:41:23 · 3415 阅读 · 0 评论 -
storm编程指南
storm编程指南@(STORM)[storm, 大数据]storm编程指南一创建spout二创建split-bolt三创建wordcount-bolt四创建report-bolt五创建topo六一些说明1关于分布式编程的一点说明2关于storm的classpath七异常处理1NoClassDefFoundError2Unsupported majorminor version原创 2017-08-13 20:04:19 · 1430 阅读 · 0 评论 -
关于kafka中的timestamp与offset的对应关系
关于kafka中的timestamp与offset的对应关系@(KAFKA)[storm, kafka, 大数据]关于kafka中的timestamp与offset的对应关系获取单个分区的情况同时从所有分区获取消息的情况结论如何指定时间出现UpdateOffsetException时的处理方法相关源码略读1入口2处理逻辑1建立offset与timestamp的对应关系并保存到数据中原创 2017-08-10 11:08:02 · 5096 阅读 · 1 评论 -
Kafka 副本OffsetOutOfRangeException
Kafka 副本OffsetOutOfRangeException@(KAFKA)[kafka]Kafka 副本OffsetOutOfRangeException1故障描述2故障详细原因线程同步锁使用了写锁未使用读锁3解决建议方法一升级至0901方法二修改kafka代码自己编译一个版本方法三新集群上线降低问题出现概率方法四检查拓扑报警时出现若是类似异常直接重启方法五拓扑均使用opaq原创 2017-08-03 14:34:17 · 5055 阅读 · 0 评论 -
storm调优
storm调优@(STORM)[storm]本文从2个方面讨论storm的调优,第一个是集群的调优,第二个是运行在集群中的拓扑的调优,这部分还包括了使用storm-kafka从kafka中读取消息的调优。官方的一些建议请见:http://storm.apache.org/documentation/FAQ.html 中文版:http://ifeve.com/storm-faq/一、集群调优1、ne原创 2017-08-08 14:10:36 · 2158 阅读 · 0 评论 -
kafka集群原理介绍
kafka集群原理介绍@(KAFKA)[kafka, 大数据]kafka集群原理介绍一基础理论二配置文件一java调优二参数说明三错误处理四zookeeper中的内容1brokers中的信息2consumer的信息offset中的这个值表示什么意思不是时间是batch先看看simple levele api然后再考虑mail list3controller和controller_e原创 2017-08-14 09:58:20 · 3731 阅读 · 0 评论 -
storm metric的使用说明
storm metric的使用说明@(STORM)[storm]storm metric的使用说明一概述二使用storm metric的关键步骤1在bolt的prepare中注册metric2在bolt的execute方法中更新metric3在topo中指定将metric consumer这里使用了storm自带的consumer将其输出到日志文件中也可以自定义consumer见下面4示原创 2017-08-10 11:07:24 · 1024 阅读 · 0 评论 -
Disruptor编程指南
Disruptor编程指南@(STORM)[storm, java]完整代码请见:https://github.com/lujinhong/lujinhong-commons/tree/master/lujinhong-commons-java/src/main/java/com/lujinhong/commons/java/disruptor 部分内容参考自:http://www.cnblogs原创 2017-08-02 14:35:41 · 418 阅读 · 0 评论 -
trident原理及编程指南
trident原理及编程指南@(STORM)[storm, 大数据]trident原理及编程指南一理论介绍一trident是什么二trident处理单位三事务类型1spout类型2state类型3实现恰好一次的spout与state组合类型二编程指南1定义输入流2统计单词数量3输出统计结果4split的字义三使用kafka作为数据源1定义kafka相关配置2从kafka原创 2017-08-13 20:06:53 · 2151 阅读 · 1 评论 -
kafka集群编程指南
kafka集群编程指南@(KAFKA)[kafka, 大数据]kafka集群编程指南一概述一主要内容二关于scala与java的说明二producer的API一scala版本deprecated1一个简单例子2指定partitioner的producer关于KeyedMessage的分析二java版本三consumer的API一high level consummer二sim原创 2017-08-13 20:00:06 · 1254 阅读 · 0 评论 -
kafka集群操作指南
kafka集群操作指南@(KAFKA)[kafka, 大数据]kafka集群操作指南一单机版安装二集群安装三集群启停操作四topic相关的操作五某个broker挂掉本机器可重启六某个broker挂掉且无法重启需要其它机器代替七扩容八数据迁移九机器下线十增加副本数量十一leader的平衡十二kafka集群网络不可达十三某个topic突然不可用十四zk不可用十五kafka长原创 2017-08-14 09:59:08 · 1645 阅读 · 0 评论 -
【源码分析】storm拓扑运行全流程源码分析
【源码分析】storm拓扑运行全流程源码分析@(STORM)[storm]源码分析storm拓扑运行全流程源码分析一拓扑提交流程一stormpy1storm jar2def jar3exec_storm_class4get_classpath二拓扑提交之一1用户代码调用submitTopology2StormSubmittersubmitTopologyWithProgressBa原创 2017-08-06 21:44:47 · 3083 阅读 · 0 评论 -
storm hook的使用
storm hook的使用@(STORM)[storm]storm hook的使用一原理二入门例子三hook的类型四应用场景(一)原理1、先看一下storm的hook是什么东西: http://storm.apache.org/documentation/Hooks.htmlStorm provides hooks with which you can insert custom code原创 2017-08-10 11:08:35 · 1387 阅读 · 0 评论 -
storm原理介绍
storm原理介绍@(STORM)[storm, 大数据]storm原理介绍一原理介绍Why use Storm1适用场景2集群相关概念3拓扑相关概念二配置三并行度一storm拓扑的并行度可以从以下4个维度进行设置二并行度的设置方法三示例四分组五可靠性一spout二bolt一、原理介绍Why use Storm?**Apache Storm is a free and o原创 2017-08-13 20:07:30 · 1393 阅读 · 0 评论 -
storm目录结构及在zk中的目录结构
storm目录结构及在zk中的目录结构@(STORM)[storm]storm目录结构及在zk中的目录结构一storm在磁盘中的内容一nimbus中的目录结构1inbox目录2stormdist目录二supervisor中的目录结构1supervisor目录2worker-users目录3worker目录二storm在zookeeper中的信息1assignment2storm原创 2017-08-06 21:44:02 · 1369 阅读 · 0 评论 -
storm UI解释
storm UI解释@(STORM)[storm]1、关于emit与transfer(转自http://www.reader8.cn/jiaocheng/20120801/2057699.html)storm ui上emit和transferred的区别最开始对storm ui上展示出来的emit和transferred数量不是很明白, 于是在storm-user上google了一把, 发现有人也有原创 2017-08-06 21:46:52 · 760 阅读 · 0 评论 -
storm集群操作指南
storm集群操作指南@(STORM)[storm, 大数据]storm集群操作指南一storm伪分布式安装一环境准备二安装zookeeper三安装storm四运行程序二storm集群安装一下载storm并解压二配置storm在stormyaml中添加以下内容三关于包依赖的关系四文件同步五启动storm六验证三storm集群的启停一命令模式二supervisor模式四原创 2017-08-13 20:08:04 · 2495 阅读 · 0 评论 -
kafka分区及副本在broker的分配
kafka分区及副本在broker的分配@(KAFKA)[kafka, 大数据]部分内容参考自:http://blog.youkuaiyun.com/lizhitao/article/details/41778193下面以一个Kafka集群中4个Broker举例,创建1个topic包含4个Partition,2 Replication;数据Producer流动如图所示: (1) (2)当集群中新增2节点,P原创 2017-08-11 14:40:19 · 4293 阅读 · 0 评论 -
storm调优
storm调优@(STORM)[storm]本文从2个方面讨论storm的调优,第一个是集群的调优,第二个是运行在集群中的拓扑的调优,这部分还包括了使用storm-kafka从kafka中读取消息的调优。官方的一些建议请见:http://storm.apache.org/documentation/FAQ.html 中文版:http://ifeve.com/storm-faq/一、集群调优1、ne原创 2017-08-08 14:12:37 · 1142 阅读 · 0 评论