自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

米斯特拉克的博客

生活明朗 万物可爱 我真菜!!!

  • 博客(10)
  • 收藏
  • 关注

原创 linux yum无法使用

近期,在用yum下载ntp的时候,无法下载,百度好多解决办法,不仅很复杂,而且基本无法解决。一个很简单的方法就是直接换一个阿里的yum源。一开始用yum的时候,出现如下问题:百度很多方法都解决不了,后来询问前辈,简单粗暴,只需要换一个阿里的yum源就好了进入/etc/yum.repos.d目录,然后建一个文件(我建的是aliyun.repo)vim aliyun.repo 然后将如...

2020-04-29 19:25:58 753

原创 Kafka入门

在安装Kafka之前,需要了解一些Kafka的概念Broker : 安装Kafka服务的一台机器就是一个broker(broker的id要全局唯一)Producer :消息生产者,负责将数据写入到broker中(push)Consumer:消息消费者,负责从kafka中读取数据(pull),旧版本的消费者需要依赖zk,新版本的不需要Topic: 主题,相当于数据的一个分类,不同topic存...

2019-11-21 17:16:22 227

原创 Spark SQL数据源

1. 数据源1:JDBC1.1 使用load方法连接JDBC读取数据package com.bigdata.spark.day1021import java.util.Propertiesimport org.apache.log4j.{Level, Logger}import org.apache.spark.sql._/** * JDBC 数据源 */object JDB...

2019-11-20 10:14:55 323

原创 Spark SQL

1. Spark SQL基础1.1 什么是Spark SQLSpark SQL是Spark用来处理结构化数据(二维表数据)的一个模块,它提供一个编程抽象DataFrame并作为分布式SQL查询引擎的作用。为什么要学习Spark SQL? Hive(离线)是将HQL转换成MR然后提交到集群上执行,大大简化了编写MR程序的复杂性,但是Hive(离线)如果数据量大,执行很慢,所以Spark SQL...

2019-11-05 22:27:44 450 1

原创 Spark递交任务的流程

Spark递交任务的流程图流程分析:1.客户端发送请求;2.cluster manager接受请求(计算所需资源),并且给worker分配资源;3.worker启动 一个或者多个executor ;4.任务真正递交给从节点。打个比方客户端(客户),cluster manager(老板),woker(项目经理),executor(开发人员)1.客户提出需求(需要协调的资源)给老板;...

2019-09-30 16:56:39 134

原创 Spark的RDD和算子

1.RDD概述1.1 定义RDD(弹性分布式数据集),Spark数据集的一个基本抽象。它是跨集群节点划分的元素的集合,可以并行操作。用户可以要求Spark将RDD保留在内存中,以使其能够在并行操作中有效地重用。RDD可以自动从节点故障中恢复。ARRAY VS RDD array是针对单机而言,RDD来源于分布式服务器,比如worker1,worker2…1.2 属性...

2019-09-30 11:07:12 411

原创 IDEA写WordCount

Scala WordCount1.配置pom.xml<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" ...

2019-09-23 19:54:53 239

原创 Spark基础学习

一、组成1.spark core:内核,同时它也是spark的核心组成部分,相当于MR(都是进行离线数据分析)spark core的核心:RDD(弹性分布式数据集)2.spark sql:相当于Hive3.spark streaming:本质还是RDD4.MLib5.GraphX二、Spark的体系结构和部署1.体系结构:主从结构(容易发生单点故障)2.部署(HA)准备:lin...

2019-09-17 19:40:10 169

原创 Hadoop集群的搭建

前提:三台虚拟机(bigdata01、bigdata02、bigdata03),xshell模拟器一、集群简介Hadoop集群包含两个集群:HDFS集群:负责数据存储。Namenode/DatanodeYARN集群:负责集群数据运算时的资源调度。 ResourceManager /NodeManager(Mapreduce其实是一个应用程序开发包)二、集群搭建1.jdk安装(1).首...

2019-09-11 19:23:59 252

原创 虚拟机的配置

一、配置虚拟机(bigdata01)1.网卡配置vi /etc/sysconfig/network_scripts/ifcfg-eth-0对于在IP配置过程中出现的外网不通的问题,可以参考虚拟机连接外网虽然不太懂,但是很管用。。2.配置主机名vi /etc/sysconfig/network3.关闭防火墙chkconfig iptables off4.安装ssh客户端...

2019-09-09 21:02:00 327 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除