
大数据技术
文章平均质量分 55
SqrsCbrOnly1
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
大数据面试题总结
1.Spark运行原理启动一个driver进程 ,用于控制整个流程当任务提交,首先会去向资源管理器–yarn,申请Executor资源,根据sparkContext获取运行环境,然后Driver会从程序倒着构建成DAG图,在将按照宽窄依赖减DAG图分解成stage,然后将Taskset发送给Task Scheduler 会将task 分给每一个stage ,最后将task发送给exec...原创 2019-10-21 13:40:11 · 978 阅读 · 0 评论 -
azkaban的安装教程!!
简单来说直接上步骤!第一步!首先你得有三个小小的安装包!如果没有加我 qq 我分享一下 1572095709第二步!上传虚拟机!用tar -zxvf的命令去解压!然后去重命名mv一下就成了这个样子第三步!然后在任意目录下执行以下命令 并完成填写到此azkaban安装完毕...原创 2019-08-30 21:29:32 · 492 阅读 · 0 评论 -
flume+kafka+flink整合消费数据 scala语言
首先启动zookeeperzkServer.sh start在启动kafkabin/kafka-server-start.sh config/server.properties创建主题bin/kafka-topics.sh -create --bootstrap-server 192.168.35.125:9092,192.168.35.126:9092,192.168.35.127:9...原创 2019-08-22 11:49:45 · 1397 阅读 · 0 评论 -
Spark Streaming整合kafka实战简单 一看就会
首先新建一个由maven管理的scala的项目在pom文件中添加以下依赖 <properties> <scala.version>2.11.8</scala.version> <hadoop.version>2.7.4</hadoop.version> <spark.versio...原创 2019-07-19 14:39:18 · 566 阅读 · 0 评论 -
spark-streaming整合flume实战poll方式 简单流程详细
6.1 Poll方式(1)安装flume1.6以上(2)下载依赖包spark-streaming-flume-sink_2.11-2.0.2.jar放入到flume的lib目录下(2)写flume的agent,注意既然是拉取的方式,那么flume向自己所在的机器上产数据就行(3)修改自己的scala-library版本,pom里面什么版本,找到地址传到flume/lib/这里我pom...原创 2019-07-19 14:26:44 · 414 阅读 · 0 评论 -
spark RDD算子大全
1、RDD操作详解启动spark-shellspark-shell --master spark://hdp-node-01:70771.1 基本转换mapmap是对RDD中的每个元素都执行一个指定的函数来产生一个新的RDD。 任何原RDD中的元素在新RDD中都有且只有一个元素与之对应。举例://设置spark的配置文件信息val sparkConf: SparkConf = ...原创 2019-07-12 10:11:24 · 362 阅读 · 0 评论 -
十年算法工程师分享的Scala语言基础入门!
0.值类型隐式转换1.强制类型装换2.值类型和字符串类型的转换3.判断语句4.循环语句 5.循环跳出语句 6.元祖的介绍和使用7.数组的介绍和使用8.集合的介绍和使用0.隐式转换(高阶隐式转换和隐式函数,这里我们先不讲)当scala程序在进行赋值或者运算的时候,精度小的类型自动转换为精度大的类型,这个就是自动类型转换(隐式转换)//char -> Intvar ...原创 2019-07-06 11:39:38 · 415 阅读 · 0 评论 -
Scala的简单入门 基础语句的运用
1.为什么要学习scala?2.scala的介绍3.与java语言的对比4.编译工具的安装5.main方法讲解6.常量和变量7.数据类型8.懒加载9.差值器1.为什么要学习scala?我们学习大数据对于数据的相应处理简单地说有两种1)离线计算 它主要是由hadoop来实现 离线计算 就是在数据存储完毕后 对存储好的数据进行处理2)在线计算 spark sc...原创 2019-07-05 17:19:48 · 402 阅读 · 0 评论 -
scala入门 类、方法、对象、继承、特质
类、方法、对象、继承、特质Scala的类与Java、C++的类比起来更简洁,学完之后你会更爱Scala!!!1.1. 类1.1.1. 类的定义package cn.bw.class_demo/**在Scala中,类并不用声明为public类型的。Scala源文件中可以包含多个类,所有这些类都具有共有可见性。*/class Person {//用val修饰的变量是...原创 2019-07-09 14:06:26 · 549 阅读 · 1 评论 -
关于大数据 secondaryNameNode 持久化的简单总结
1.数据需要存储2.NameNode 掌握了一批元数据 什么是元数据呢 就是所谓的描述数据的数据,这些元数据是放在内存中的,我们要做的就是将这些元数据放到磁盘中,让他永久的保存下去数据存储的几种方式1.硬盘 特点:内存大 便宜 但是对于数据的处理比较慢2.内存 特点:内存小 贵 但是对于数据的处理比较快HDFS的主从架构主节点 (Namenode)相当于...原创 2019-06-12 09:58:25 · 454 阅读 · 0 评论 -
Mapreduce工作流程与简介
最近几天一直在学习关于大数据方面的相关技术,今天学习了MapReduce的工作流程,让我对数据地处理有了新的认识,接下来我分享一下关于MapReduce2.0的工作流程Mapreduce简介Hadoop MapReduce 源于Google发表的 MapReduce论文。Hadoop MapReduce 其实就是Google MapReduce的一个克隆版本。Hadoop 2.0即第二代Had...原创 2019-06-14 14:43:49 · 5283 阅读 · 0 评论 -
hadoop伪分布式的API编写 与eclipse结合
1.新建一个Java项目将lib包导入将core-site.xml与hdfs-site.xml导入新建的conf文件夹core-site.xml与hdfs-site.xml就是伪分布式虚拟机中的core-site.xml与hdfs-site.xml新建测试类编写代码package com.hpe.test;import java.io.BufferedInputStream;i...原创 2019-06-13 21:07:05 · 314 阅读 · 0 评论 -
hadoop伪分布式配置外部客户端eclipse
一 下载hadoop包 解压到本地一 环境变量1右键此台电脑 2点击属性 3高级设置 4环境变量 5系统变量1.配置环境变量1.1 配置jdk的环境变量1.2 配置hadoop的环境变量变量名:HADOOP_HOME1.3修改系统用户名在系统变量中新建HADOOP_USER_NAME值为root 1.4在Path中添加%HADOOP_HOME%\bin...原创 2019-06-13 20:57:27 · 330 阅读 · 0 评论