
大数据平台
柱子(ˉ▽ ̄~) 切~~
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
hive2.01+mysql5.5
hive2.01+mysql5.5环境搭建原创 2017-01-05 17:12:11 · 708 阅读 · 0 评论 -
Structured Streaming 输入输出
Structured Streaming 输入输出输入SparkSession.readStream() 返回一个 DataStreamReader 接口对象,可以通过该对象对输入源进行参数配置,最后返回DataFrame/DataSet对象。输入源有三种File : csv,json,text,textFile 等val csvDF = spark .readStream .optio原创 2017-06-23 18:00:24 · 1606 阅读 · 0 评论 -
Spark2.11 两种流操作 + Kafka
Spark2.11 两种流操作 + KafkaSpark2.x 自从引入了 Structured Streaming 后,未来数据操作将逐步转化到 DataFrame/DataSet,以下将介绍 Spark2.x 如何与 Kafka0.10+整合Structured Streaming + Kafka引包groupId = org.apache.sparkartifactId = spark-原创 2017-06-23 17:59:58 · 7951 阅读 · 1 评论 -
DataFrame/DataSet 操作
DataFrame/DataSet 操作Databricks 不止一次提到过希望未来在编写 Spark 应用程序过程中,对于结构化/半结构化数据,使用 Datasets(DataFrame 的扩展) 来代替 RDD 操作,这主要源于 Datasets 以下几个方面: * 充分利用了 Catalyst 编译优化器 和 Tungsten 执行引擎优化程序 * 程序运行速度更快,以原始的二进制的方原创 2017-06-23 17:59:31 · 1572 阅读 · 0 评论 -
DataFrame/DataSet 创建
DataFrame/DataSet 创建读文件接口import org.apache.spark.sql.SparkSessionval spark = SparkSession .builder() .appName("Spark SQL basic example") .config("spark.some.config.option", "some-value") .ge原创 2017-06-23 17:58:49 · 1932 阅读 · 0 评论 -
Java中使用 Long 表示枚举类
Java中使用 Long 表示枚举类在日常的开发过程中,很多时候我们需要枚举类(enum)来表示对象的各种状态,并且每个状态往往会关联到指定的数字,如: private enum Color { RED(11), GREEN(21), YELLOW(31), BLACK(160); ... };或者用枚举类来表示一系列状态的转变关系: enum W原创 2017-06-29 18:27:51 · 1477 阅读 · 1 评论 -
hadoop文件压缩格式
1 gzip压缩优点:压缩率比较高,而且压缩/解压速度也比较快;hadoop本身支持,在应用中处理gzip格式的文件就和直接处理文本一样;有hadoop native库;大部分linux系统都自带gzip命令,使用方便。缺点:不支持split。应用场景:当每个文件压缩之后在130M以内的(1个块大小内),都可以考虑用gzip压缩格式。譬如说一天或者一个小时的日志压缩成一个gzip文件,运行mapre转载 2017-02-26 12:05:13 · 702 阅读 · 0 评论 -
spark.eventLog.dir和spark.history.fs.logDirectory的区别
spark.eventLog.dir是记录Spark事件的基本目录,如果spark.eventLog.enabled为true。 在此基本目录中,Spark为每个应用程序创建一个子目录,并在此目录中记录特定于应用程序的事件。 用户可能希望将其设置为统一位置,如HDFS目录,以便历史记录服务器可以读取历史记录文件。spark.history.fs.logDirectory用于为历史记录程序提供文件系统原创 2017-02-25 22:13:18 · 10544 阅读 · 0 评论 -
SVN操作简介
本指导文档作为简单搭建及使用SVN的指导手册,如需更复杂的功能,详细信息请参考: http://subversion.apache.org/ Subversion使用 环境搭建 系统环境:CentOS6.7 安装方式:yum install (源码安装容易产生版本兼容的问题) 安装软件:系统自动下载SVN软件 1.检查已安装版本 检查是否安装了低版本的SVN [root@zck /原创 2016-01-25 12:16:09 · 823 阅读 · 0 评论 -
SLICK+SQLITE+SCALA
本项目成立的原因主要是为了使用SCALA操作SQLITE数据库,完成日期:2015.12.17,所用工具版本皆为官方最新,源码名称:***_sqlite_codeGen svn:svn://192.168.1.30/ganghang_sqlite SQLite JDBC SQLite共有三种JDBC驱动 SQLite Wrapper by Christian http://www.ch-w原创 2016-01-25 12:24:54 · 1925 阅读 · 0 评论 -
MapReduce作业提交流程
Job Submission1.客户端调用job.submit方法提交作业,该方法内部创建一个JobSubmitter对象实例,该实例对象调用submitJobInternal方法提交作业。当作业成功提交后,客户端调用的waitForCompletion方法将一直询问作业的进度信息并打印。作业提交的内部处理过程:首先通过RPC调用向 resource manager申请一个Application原创 2016-11-15 23:46:22 · 3435 阅读 · 0 评论 -
Structured Streaming 之窗口事件时间聚合操作
Structured Streaming 之窗口事件时间聚合操作Spark Streaming 中 Exactly Once 指的是: * 每条数据从输入源传递到 Spark 应用程序 Exactly Once * 每条数据只会分到 Exactly Once batch 处理 * 输出端文件系统保证幂等关系Structured Streaming 返回的是 DataFrame/DataSet,原创 2017-06-23 18:04:12 · 6546 阅读 · 1 评论