
大数据学习笔记
nuc2015
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
centos7+mysql5.7安装教程+(可能出现的多种错的解决办法)
linux+mysql5.7解压版安装教程ERROR 1054 (42S22): Unknown column 'password' in 'field list'ERROR 1820 (HY000): You must reset your password using ALTER USER statement before executing this statement.ERROR! The server quit without updating PID file原创 2018-07-06 12:51:46 · 5433 阅读 · 0 评论 -
Spark+zookeeper搭建高可用集群学习笔记
Master结点存在单点故障,所以要借助zookeeper,至少启动两台Master结点来实现高可用,配置方案比较简单先停止所有Spark服务,然后安装zookeeper,并启动zookeeper集群规划:主机名 IP地址 启动程序 master.hadoop 192.168.1.2 zookeeper、master、worker slave1.hado...原创 2018-08-21 21:09:18 · 5745 阅读 · 1 评论 -
HIVE使用本地模式执行操作
将hive的Job交给yarn执行太慢,hive支持本地模式set hive.exec.mode.local.auto=true;默认为false测试例子:试验:先创建一张表,指定文件格式为sequencefilecreate table t_seq(id int, name string, addr string)stored as sequencefile;然后往表中插入数...原创 2018-08-29 09:46:27 · 6895 阅读 · 0 评论 -
Hbase高可用集群搭建
下载Hbase安装包,并解压1、修改hbase-1.2.6/conf/hbase-env.sh 配置文件export JAVA_HOME=/apps/jdk1.8.0_171export HADOOP_HOME=/apps/hadoop-2.8.0 #配置hadoop变量,否则hbase不识别hdfs集群名export HBASE_HOME=/apps/hbase-1.2.6ex...原创 2018-09-04 10:31:29 · 514 阅读 · 0 评论 -
Spark+HDFS实现wordCount
首先启动环境:1、启动hdfs[root@master conf]# start-dfs.sh2、然后启动spark[root@master spark-2.2.0]# sbin/start-all.sh --master spark://master.hadoop:7077[root@master spark-2.2.0]# bin/spark-shell --mast...原创 2018-08-30 15:04:27 · 854 阅读 · 0 评论 -
深入理解RDD
什么是RDD?RDD 是一个分布式的可变集合常用的Transformation(即转换,延迟加载)通过并行化scala集合创建RDD数据既可以放到内存当中,又可以放在磁盘当中五个特点:1、一系列分区组成2、每一个分区上都会有一个函数作用在上面3、RDD和RDD之间存在依赖关系4、如果RDD里面装的是Key-value类型,有分区器5、如果是从hdfs这种文件系统中创建RDD,会...原创 2018-09-11 22:03:58 · 355 阅读 · 0 评论 -
RDD算子1
RDD 是一个分布式的可变集合#常用的Transformation(即转换,延迟加载)#通过并行化scala集合创建RDDscala> val rdd1 = sc.parallelize(Array(1,2,3,4,5,6,7,8,9,10))rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[0] at par...原创 2018-09-03 21:43:01 · 170 阅读 · 0 评论 -
RDD算子2
http://homepage.cs.latrobe.edu.au/zhe/ZhenHeSparkRDDAPIExamples.htmlhttp://homepage.cs.latrobe.edu.au/zhe/ZhenHeSparkRDDAPIExamples.html//让我们先用分区标签打印出RDD的内容scala> val z = sc.parallelize(List(...原创 2018-09-03 21:44:14 · 202 阅读 · 0 评论 -
什么是shuffle,如何区分操作是否还有shuffle
将一份数据分开发送到好几个地方的操作还有shuffle原创 2018-09-16 12:10:17 · 3355 阅读 · 3 评论 -
深入理解java虚拟机(第一篇)
在eclipse中查看内存溢出的案例:package main;import java.util.ArrayList;import java.util.List;/** * @author 刘卫卫 * 2018年9月12日下午3:22:49 */public class HeapOOM { public static void main(String[] args) {...原创 2018-09-12 16:25:07 · 180 阅读 · 0 评论 -
JdbcRDD在多个分区情况下是如何读取数据的
package nuc.sw.testimport java.sql.{Connection, DriverManager}import org.apache.spark.rdd.JdbcRDDimport org.apache.spark.{SparkConf, SparkContext}import scala.collection.mutable/** * creat...原创 2018-09-17 15:25:43 · 615 阅读 · 0 评论 -
spark-submit提交jar包到spark集群上
一、首先将写好的程序打包成jar包。在IDEA下使用maven导出jar包,如下:在pom.xml中添加以下插件 <plugin> <groupId>org.apache.maven.plugins</groupId> <artifactId>maven-...原创 2018-09-18 10:08:42 · 19266 阅读 · 2 评论 -
Exception in thread "main" java.lang.IllegalArgumentException: java.net.URISyntaxException: Relative
Exception in thread "main" java.lang.IllegalArgumentException: java.net.URISyntaxException: Relative path in absolute URI: D:%5CHadoop%5Chdfs%5Cwordcount%5Cinput%5Ca.txt原创 2018-09-18 10:12:38 · 2870 阅读 · 1 评论 -
sqoop将mysql数据导入hdfs和hive学习笔记
#安装好以后将mysql驱动mysql-connector-java-5.1.21-bin.jar放到sqoop安装目录的lib下面一、将mysql数据导入hdfs,命令如下:[root@master bin]# /apps/sqoop-1.4.7/bin/sqoop import \--connect jdbc:mysql://localhost:3306/sqoop \--u...原创 2019-03-07 10:54:42 · 990 阅读 · 0 评论 -
Spark2.2.0集群搭建学习笔记
一、Spark简介:Saprk可以运行在hadoop的yarn或Mesos,standalone,clude(资源管理框架)上,使用的文件系统可以是HDFS,也可以使Cassandra,HBase等。 二、环境搭建:如果想学习spark最好的方法是看官方文档。spark仅仅是一个通用的负责计算的框架,有很多内置的算子。而在mapreduce中需要在map中提供排序规则他可以生成一个...原创 2018-08-21 19:31:37 · 816 阅读 · 0 评论 -
spark中的reduceByKey VS groupByKey
在编写spark程序时,reduceByKey和groupByKey都可以实现分组聚合的功能,但是在实际中使用哪一个更好呢。还记的在写MapReduce程序的时候,每一台机器上的数据会经过shuffle,分发到属于自己的机器上进行汇总计算。这个过程是通过网络进行IO操作的,是很费资源的。所以在MapReduce中可以在map端先进行combiner,也就相当于执行了一次reduce,然后再进行...原创 2018-08-31 20:22:43 · 447 阅读 · 0 评论 -
Hadoop2.8集群安装详细教程
一、网络及主机名配置192.168.1.2 master.hadoop 192.168.1.3 slave1.hadoop 192.168.1.4 slave2.hadoop 1.修改主机名[root@master /]# vi /etc/hostname #主机名 master.hadoop[root@master ~]# hos...原创 2018-07-06 16:43:50 · 4266 阅读 · 3 评论 -
hadoop2.8.0+zookeeper-3.4.10搭建HA(高可用集群)
一、网络及主机名配置ip地址主机名安装软件j进程192.168.1.2master.hadoopjdk,hadoop,zookeepernamenode,datanode,ZKFC,ResourceManager,nodemanager192.168.1.3slave1.hadoopjdk.hadoop,zookeepernamenode,datanode,ZKFC,ResouceManager,...原创 2018-07-06 18:17:18 · 1753 阅读 · 0 评论 -
centos7+hive-1.2.1安装教程
一、下载hive1.2.1下载地址二、上传至linux并解压[root@master apps]# tar -zxvf apache-hive-1.2.1-bin.tar.gz[root@master apps]# cd hive-1.2.1/[root@master hive-1.2.1]# ll总用量 464drwxr-xr-x. 4 root root 156 7月 5 18...原创 2018-07-06 19:17:05 · 1029 阅读 · 0 评论 -
hive指定mysql数据源
hive指定mysql数据源原创 2018-07-07 10:31:41 · 594 阅读 · 0 评论 -
hive DDL 笔记
为了查看表结构和数据方便使用客户端服务端模式访问hive 开启hive服务端(监听端口为10000)[root@master apps]# hive-1.2.1/bin/hiveserver2开启服务端口后光标一直闪烁,表示开启若想启动到后台nohup bin/hiveserver2 1>/dev/null 2>&1 &客户端连接hive...原创 2018-07-07 19:02:22 · 308 阅读 · 0 评论 -
HA高可用集群namenode启动后自动停止解决办法
WARN org.apache.hadoop.ipc.Client: Failed to connect to server: master.hadoop/192.168.1.2:8485: retries get failed due to exceeded maximum allowed retries number: 10原创 2018-07-14 17:51:05 · 8383 阅读 · 1 评论 -
zookeeper集群启动脚本
zookeeper集群启动脚本原创 2018-07-14 17:54:38 · 777 阅读 · 0 评论 -
spark资源调度与yarn类比
spark资源调度与yarn类比:master负责资源调度:就是决定在那些worker上启动executor,监控worker) ————> yarn上的是resourcemanagerworker负责启动执行任务的进程(executor),并且监控executor,并且将当前机器的信息通过心跳汇报给master————>nodemanagerexecutor负责执...原创 2018-08-27 19:05:48 · 725 阅读 · 0 评论 -
什么是RDD
什么是RDD,RDD的transformation和action到底是什么原创 2018-08-30 20:56:01 · 4316 阅读 · 0 评论 -
RDD常用的transformation及分区详解
RDD常用的transformation及分区详解常用的transformation(转换,延迟加载)创建RDD有两种方法:1.通过driver端,也就是spark-shell端通过集合来创建。2.可以通过集群上的数据来创建。原创 2018-08-30 21:52:48 · 422 阅读 · 0 评论 -
Spark集群中的Master和Worker之间的通信原理
worker是如何知道master在哪台机器上的?在配置文件中也没有配。配置文件如下:export JAVA_HOME=/apps/jdk1.8.0_171 export SCALA_HOME=/apps/scala-2.11.7 #export HADOOP_HOME=/apps/hadoop-2.8.0/ #export HADOOP_CONF_DIR=/apps/h...原创 2018-08-23 19:19:24 · 3994 阅读 · 0 评论 -
WARN scheduler.TaskSchedulerImpl: Initial job has not accepted any resources
提交Spark任务时,报错:WARN TaskSchedulerImpl: Initial job has not accepted any resources; check your cluster UI to ensure that workers are registered and have sufficient resources原创 2018-08-28 19:27:58 · 2448 阅读 · 0 评论 -
Spark提交任务的命令
bin/spark-submit --master spark://master.hadoop:7077,slave1.hadoop:7077 --executor-memory 512mb --total-executor-cores 4--class nuc.sw.test.ScalaWordCount /root/spark-1.0.jar hdfs://master.hadoop:90...原创 2018-08-28 19:47:29 · 4346 阅读 · 0 评论 -
Docker入门笔记
Dockerfile实战:构建Tomcat镜像步骤:1.新建docker_demo文件夹,并进入。2.将Tomcat和jdk安装包复制到该目录中。3.在该目录下新建Dockerfile文件,文件名首字母D必须为大写。4.根据上述基本结构来编辑Dockerfile文件。5.使用docker build命令来构建镜像。6.使用docker run命令来启动容器。原创 2019-07-23 21:37:07 · 360 阅读 · 0 评论