- 博客(10)
- 收藏
- 关注
转载 vim 命令
vim命令 vim命令vim替换命令. 当前行 s 替换(substitute) g 全文(globe) 0 移至该行之首 ^ 移至该行的第一个字符处 $ 移至该行末尾(1,$指全文) % 当前编辑的文章(所有行) # 前一次编辑的文章 ...
2019-02-21 17:49:04
136
原创 Kafka Documentation
概述Kafka是一个发布订阅系统,当前版本为2.1介绍流平台有三个关键功能:发布和订阅记录流,类似于消息队列或企业消息传递系统;以容错、持久的方式存储记录流;当记录发生时,处理记录流。Kafka通常用于两大类应用程序:构建可靠地在系统之间获取数据的实时流数据管道;或构建转换数据流或对数据流作出反应的实时流应用程序。为了了解Kafka是如何做这些事情的,让我们深入探讨Kafka自...
2019-01-24 15:25:34
256
原创 Spark SQL, DataFrames and Datasets 指导
概述Spark SQL是一个用于结构化数据处理的Spark模块。与基本的Spark RDD API不同,Spark SQL的接口提供了更多关于数据结构和正在执行的计算信息。在内部,Spark SQL使用这些额外的信息来执行额外的优化。有几种与Spark SQL交互的方法,包括SQL和DataSet API。在计算结果时,使用相同的执行引擎,而不依赖用于表示计算的API/语言。这种统一意味着开发人...
2019-01-22 15:02:45
427
原创 SparkStreaming 编程指导
#概述spark streaming是spark core API的扩展,它支持可伸缩、高吞吐量、容错的实时数据流处理。数据可以从多种来源(如Kafka、Flume、Kinesis或TCP套接字)中摄取,并且可以使用复杂的算法来处理,这些算法有高级函数表示,如map、reduce、join和window。最后,可以将处理过的数据推送到文件系统、数据库和活动仪表板。实际上,你可以在流上应用Spar...
2019-01-22 09:32:51
616
原创 git教程指导及服务器搭建
1、Git安装##安装git依赖$ yum install curl-devel expat-devel gettext-devel openssl-devel zlib-devel##安装git包$ yum -y install git-core##查看git版本是否安装成功$ git --versiongit工作流程图2、Git命令操作创建仓库,选择一个目录...
2019-01-15 22:06:42
121
原创 NTP网络时间协议
1、确认ntp服务是否安装Linux系统默认有安装NTP,若只有ntpdate而未见ntp,则需删除原有ntpdate重新安装. 如:查看ntp安装情况:删除 ntpdate : yum -y remove ntpdate-4.2.6p5-22.el7.centos.x86_64安装 ntp : yum -y install ntp2、配置ntp服务器1)、配置前检查...
2019-01-11 15:16:39
955
原创 RDD笔记~repartition函数和coalesce函数
RDD分区重新划分可调用repartition(numPartitions: Int)和coalesce(numPartitions: Int, shuffle: Boolean=false)两种函数进行设置,repartition内部调用coalesce,默认shuffle为true,coalesce的shuffle默认为false.先附上RDD窄依赖和宽依赖图分区重新划分有三种情况...
2019-01-11 15:13:08
738
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人