- 博客(29)
- 收藏
- 关注
原创 spark vs storm
对比点StormSpark Streaming实时计算模型纯实时,来一条数据,处理一条数据准实时,对一个时间段内的数据收集起来,作为一个RDD,再处理实时计算延迟度毫秒级秒级吞吐量低高事务机制支持完善
2017-08-03 16:41:24
358
原创 sparksql dataframe
概述(Overview)Spark SQL是Spark的一个组件,用于结构化数据的计算。Spark SQL提供了一个称为DataFrames的编程抽象,DataFrames可以充当分布式SQL查询引擎。DataFramesDataFrame是一个分布式的数据集合,该数据集合以命名列的方式进行整合。DataFrame可以理解为关系数据库中的一张表,也可以理解为R/Python
2017-08-03 16:39:10
388
原创 sparksql and datasource
数据源(Data Source)Spark SQL的DataFrame接口支持多种数据源的操作。一个DataFrame可以进行RDDs方式的操作,也可以被注册为临时表。把DataFrame注册为临时表之后,就可以对该DataFrame执行SQL查询。Data Sources这部分首先描述了对Spark的数据源执行加载和保存的常用方法,然后对内置数据源进行深入介绍。一般Load/Sa
2017-08-03 16:37:42
381
原创 kafka+sparkstreaming wordcount
概要Spark应用开发实践性非常强,很多时候可能都会将时间花费在环境的搭建和运行上,如果有一个比较好的指导将会大大的缩短应用开发流程。Spark Streaming中涉及到和许多第三方程序的整合,源码中的例子如何真正跑起来,文档不是很多也不详细。本篇主要讲述如何运行KafkaWordCount,这个需要涉及Kafka集群的搭建,还是说的越仔细越好。搭建Kafka集群
2017-08-03 16:36:35
302
原创 sparksql cachetable 及 uncachtable
Spark相对于Hadoop MapReduce有一个很显著的特性就是“迭代计算”(作为一个MapReduce的忠实粉丝,能这样说,大家都懂了吧),这在我们的业务场景里真的是非常有用。 假设我们有一个文本文件“datas”,每一行有三列数据,以“\t”分隔,模拟生成文件的代码如下: 执行该代码之后,文本文件会存储于本地路径:/tmp/datas,它包含1000行测试数据,
2017-08-03 16:34:16
622
原创 spark streaming + kafka
我们将数据按照每天的拉取时间存入了Kafka当中,而在消费者一端,我们利用了spark streaming从kafka中不断拉取数据进行词频统计。本文首先对spark streaming嵌入kafka的方式进行归纳总结,之后简单阐述Spark streaming+kafka在舆情项目中的应用,最后将自己在Spark Streaming+kafka的实际优化中的一些经验进行归纳总结。(如有任何纰漏欢
2017-08-03 16:31:34
599
原创 spark 操作hbase及mysql
在使用Spark Streaming的过程中对于计算产生结果的进行持久化时,我们往往需要操作数据库,去统计或者改变一些值。最近一个实时消费者处理任务,在使用spark streaming进行实时的数据流处理时,我需要将计算好的数据更新到hbase和mysql中,所以本文对spark操作hbase和mysql的内容进行总结,并且对自己踩到的一些坑进行记录。Spark Streaming持久化
2017-08-03 16:29:14
366
原创 spark1.6使用介绍
快速入门(Quick Start)本文简单介绍了Spark的使用方式。首先介绍Spark的交互界面的API使用,然后介绍如何使用Java、Scala以及Python编写Spark应用。详细的介绍请阅读Spark Programming Guide。在按照本文进行操作之前,请确保已安装Spark。本文中的所有操作没有使用HDFS,所以您可以安装任何版本的Hadoop。Spar
2017-08-03 16:26:33
333
原创 JUnit单元测试
JUnit单元测试--IntelliJ IDEA单元测试的基本使用一、环境配置 使用idea IDE 进行单元测试,首先需要安装JUnit 插件。 1.安装JUnit插件步骤 File-->settings-->Plguins-->Browse repositories-->输入JUni
2017-08-03 16:18:31
213
原创 IDEA的常见设置
1.启动如果操作系统是64位的话,可以运行64位的idea;运行方法为:进入idea安装目录的bin目录下,找到idea64.exe双击运行即可;2.JVM参数进入idea安装目录的bin目录下,找到idea.exe.vmoptions(64位的,编辑idea64.exe.vmoptions)文件:-Xms256m-Xmx1024m-XX:MaxPe
2017-08-03 10:32:59
262
原创 cdh删除重装
=============================================删了重装============================================================-----------------------------------------------------------1.在cm界面(admin)下,关闭集群所有服务
2017-08-02 14:59:24
5236
原创 hive操作-建表
Hive 建表:CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name [(col_name data_type [COMMENT col_comment], ...)] [COMMENT table_comment] [PARTITIONED BY (col_name data_type [COMMENT col_co
2017-08-02 14:16:52
369
原创 spark rdd操作API
RDD的基础操作API介绍:操作类型函数名作用转化操作map()参数是函数,函数应用于RDD每一个元素,返回值是新的RDDflatMap()参数是函数,函数应用于RDD每一个元素,将元素数据进行拆分,变成迭代器,返回值是新的RDDfilter()参
2017-08-02 14:07:07
419
原创 zookeeper的常用命令
zkcli脚本命令介绍zkcli 连接默认zookeeper服务器zkcli -server ip:port 连接指定的zookeeper服务器create -s -e path data [acl] 创建节点,-s表示顺序,-e表示临时,默认是持久节点,acl缺省表示不做任何权限限制ls path [watch] 显示path下
2017-08-02 13:57:41
239
原创 spark-cluster及yarn-client说明
spark on yarn 的两种模式1)yarn-cluster:我们一般用于生产使用2)yarn-client:适用于交互、调试,能够立即看到app的输出Yarn-cluster和yarn-client的区别在于appMaster:yarn appMaster,每个yarn app实例有一个appMaster进程,是为app启动的第一个container;负责从ResourceMa
2017-08-02 13:49:53
330
原创 spark 一些算子的使用及优化
1、MapPartitionsspark中,最基本的原则,就是每个task处理一个RDD的partition。MapPartitions操作的优点:如果是普通的map,比如一个partition中有1万条数据;ok,那么你的function要执行和计算1万次。但是,使用MapPartitions操作之后,一个task仅仅会执行一次function,funct
2017-08-02 13:40:44
2003
原创 hive 行转列 列转行操作
一、行转列的使用1、问题hive如何将a b 1a b 2a b 3c d 4c d 5c d 6变为:a b 1,2,3c
2017-08-02 13:36:27
3169
原创 crontab 定时写法整理
目前hadoop hive 及spark脚本需要用定时脚本,任务调度使用的是crontab的任务调度以下是整理的命令格式:基本格式 : * * * * * command 分 时 日 月 周 命令 第1列表示分钟1~59 每分钟用*或者 */1表示 第2列表示小时1~23(0表示0点) 第3列表示日期1~31 第4列表示月份1~12 第5列标识
2017-08-01 13:35:26
63763
原创 CDH5.9 hive查询表注释为乱码解决方法
hive 元数据库用的是MySQL创建表后,用desc 在hive中查看表信息,注释显示乱码。解决方案如下:1 进入mysql ,执行show create database hive查看hive 数据库当前编码,如果是utf8 则执行下面sqlalter database hive default character set latin1
2017-08-01 11:33:59
631
原创 spark操作关系型数据库报错处理
spark 1.4版本:sqlContext.read.jdbc(url,"(select * from student2 ) tables ",props)过程中报错:16/03/31 09:58:26 ERROR yarn.ApplicationMaster: User class threw exception: java.sql.SQLException
2017-08-01 11:17:41
500
原创 impala的操作
1、-h 外能帮助格式:[root@hadoop-worer1-xiaoyacrm ~]# impala-shell -hUsage: impala_shell.py [options]Options: -h, --help show this help message and exit -i IMPALAD, --impa
2017-08-01 11:06:31
762
原创 Hbase的常见操作
常用的hbase操作命令,有参考网上文章本人环境 hbase Version 1.2.0-cdh5.9.0进入hbase shell console$HBASE_HOME/bin/hbase shellhbase(main)>whoami表的管理1)查看有哪些表h
2017-08-01 11:01:02
374
原创 cdh spark history无法查看历史数据
问题:新装cdh5.9,使用新建的hadoop用户运行spark没有问题,但是查看spark history的时候发现无法查看但是发现文件是存在的:如图可见:发现系统默认是用spark用户运行的,使用hadoop fs -chown -r spark:spark 后历史文件可以查看,但是hadoop用户新执行的任务都是hadoop:hadoop仍然不可以查看。故怀疑是执行
2017-06-28 09:54:33
2822
原创 CDH5.9安装
注:本安装说明是本人综合网上的安装文档参考得到的,可能因环境的不同,或者其他原因坑比较多。参考文档http://www.linuxidc.com/Linux/2017-01/139518.htmhttp://blog.youkuaiyun.com/u010022051/article/details/512057651、需要准备的文件cloudera
2017-06-23 14:00:49
1157
原创 记录在cdh使用中遇到的坑,cdh Reports Manager
以下为报错内容及截图: 1 个验证错误。Service mgmt has 0 Reports Manager. Cloudera Management Service requires at least 1 Reports Manager. 问题发生:我在修改cdh配置文件的时候,输入了特殊字符 造成验证失败,后面一直验证不过去。问题原因:是安装cdh5.9的时候没有安
2017-06-13 16:34:44
4377
原创 hive和impala操作parquet文件timestamp带来的困扰
前言:准备使用hive作数据仓库,因历史遗留问题,原先遗留的数据处理都是impala处理的,数据文件是parquet文件,因本身集群资源少,而处理的文件很大,准备使用hive离线分析将小文件推送到db或者impala进行展示操作。准备:搭建cdh5.9,将原有的数据从一个集群迁移到现有的集群。对数据按照天进行动态分区,分区数据仍然使用parquet格式。问题:因分区字段为timestamp
2017-05-24 17:40:16
3583
原创 spark在eclipse中遇到的问题及处理措施_标记下
环境:cdh5.9 spark1.6本地开发环境:下载了最新的ide:scala-SDK-4.6.0-vfinal-2.12-win32.win32.x86_64 开始没有使用maven,而是使用eclipse直接加jar包的方式。下面截图报错:More than one scala library found in the build path (G:/scala-SD
2017-05-23 16:19:44
451
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人