
Hadoop和Spark
SCS199411
这个作者很懒,什么都没留下…
展开
-
Hadoop 2.7分布式集群环境搭建
Hadoop 2.7分布式集群环境搭建集群机器配置ssh无密码登录本机和访问集群机器JDK和Hadoop安装配置集群机器一台Ubuntu主机系统作Master,一台Ubuntu主机系统做slave01,一台Ubuntu主机系统做slave02。三台主机机器处于同一局域网下。这里使用三台主机搭建分布式集群环境,更多台机器同样可以使用如下配置。IP在不同局域网环境下有可能不同,可以用...原创 2019-05-07 21:21:29 · 294 阅读 · 0 评论 -
在Hadoop上安装Spark
Apache Spark 是一个新兴的大数据处理通用引擎,提供了分布式的内存抽象。Spark 最大的特点就是快,可比 Hadoop MapReduce 的处理速度快 100 倍。本文没有使用一台电脑上构建多个虚拟机的方法来模拟集群,而是使用三台电脑来搭建一个小型分布式集群环境安装。本教程采用Spark2.0以上版本(比如Spark2.0.2、Spark2.1.0等)搭建集群,同样适用于搭建Spa...转载 2019-05-11 20:01:41 · 4265 阅读 · 0 评论 -
ubuntu安装zookeeper、HBase和openTSDB
ubuntu安装zookeeper和HBase软件版本和系统环境①HBase,1.2.5,下载链接 http://archive.apache.org/dist/hbase/1.2.5/hbase-1.2.5-bin.tar.gz②ZooKeeper,3.4.8,下载链接 http://archive.apache.org/dist/zookeeper/zookeeper-3.4.8/zoo...转载 2019-05-11 20:07:56 · 733 阅读 · 0 评论 -
PySpark将数据写入csv文件或导入MySQL
使用PySpark处理数据,然后将数据导入MySQLurl = 'jdbc:mysql://127.0.0.1:3306/test?autoReconnect=true'table = "000001"mode = "overwrite"properties = {"user":"root", "password":"123456", "driver":"com...原创 2019-06-12 21:40:49 · 5322 阅读 · 0 评论