米斯特拉克-优快云博客

原创 linux yum无法使用

近期，在用yum下载ntp的时候，无法下载，百度好多解决办法，不仅很复杂，而且基本无法解决。一个很简单的方法就是直接换一个阿里的yum源。一开始用yum的时候，出现如下问题：百度很多方法都解决不了，后来询问前辈，简单粗暴，只需要换一个阿里的yum源就好了进入/etc/yum.repos.d目录，然后建一个文件（我建的是aliyun.repo）vim aliyun.repo 然后将如...

2020-04-29 19:25:58 784

原创 Kafka入门

在安装Kafka之前，需要了解一些Kafka的概念Broker ：安装Kafka服务的一台机器就是一个broker（broker的id要全局唯一）Producer ：消息生产者，负责将数据写入到broker中（push）Consumer：消息消费者，负责从kafka中读取数据（pull），旧版本的消费者需要依赖zk，新版本的不需要Topic: 主题，相当于数据的一个分类，不同topic存...

2019-11-21 17:16:22 261

原创 Spark SQL数据源

1. 数据源1：JDBC1.1 使用load方法连接JDBC读取数据package com.bigdata.spark.day1021import java.util.Propertiesimport org.apache.log4j.{Level, Logger}import org.apache.spark.sql._/** * JDBC 数据源 */object JDB...

2019-11-20 10:14:55 347

1. Spark SQL基础1.1 什么是Spark SQLSpark SQL是Spark用来处理结构化数据（二维表数据）的一个模块，它提供一个编程抽象DataFrame并作为分布式SQL查询引擎的作用。为什么要学习Spark SQL? Hive（离线）是将HQL转换成MR然后提交到集群上执行，大大简化了编写MR程序的复杂性，但是Hive（离线）如果数据量大，执行很慢，所以Spark SQL...

2019-11-05 22:27:44 485 1

原创 Spark递交任务的流程

Spark递交任务的流程图流程分析：1.客户端发送请求；2.cluster manager接受请求（计算所需资源），并且给worker分配资源；3.worker启动一个或者多个executor ；4.任务真正递交给从节点。打个比方客户端（客户），cluster manager（老板），woker（项目经理），executor（开发人员）1.客户提出需求(需要协调的资源)给老板；...

2019-09-30 16:56:39 155

原创 Spark的RDD和算子

1.RDD概述1.1 定义RDD（弹性分布式数据集），Spark数据集的一个基本抽象。它是跨集群节点划分的元素的集合，可以并行操作。用户可以要求Spark将RDD保留在内存中，以使其能够在并行操作中有效地重用。RDD可以自动从节点故障中恢复。ARRAY VS RDD array是针对单机而言，RDD来源于分布式服务器，比如worker1，worker2…1.2 属性...

2019-09-30 11:07:12 459

原创 IDEA写WordCount

Scala WordCount1.配置pom.xml<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" ...

2019-09-23 19:54:53 279

原创 Spark基础学习

一、组成1.spark core：内核，同时它也是spark的核心组成部分，相当于MR（都是进行离线数据分析）spark core的核心：RDD（弹性分布式数据集）2.spark sql：相当于Hive3.spark streaming：本质还是RDD4.MLib5.GraphX二、Spark的体系结构和部署1.体系结构：主从结构（容易发生单点故障）2.部署（HA）准备：lin...

2019-09-17 19:40:10 195

原创 Hadoop集群的搭建

前提：三台虚拟机（bigdata01、bigdata02、bigdata03），xshell模拟器一、集群简介Hadoop集群包含两个集群：HDFS集群：负责数据存储。Namenode/DatanodeYARN集群：负责集群数据运算时的资源调度。 ResourceManager /NodeManager（Mapreduce其实是一个应用程序开发包）二、集群搭建1.jdk安装（1）.首...

2019-09-11 19:23:59 278

原创虚拟机的配置

一、配置虚拟机（bigdata01）1.网卡配置vi /etc/sysconfig/network_scripts/ifcfg-eth-0对于在IP配置过程中出现的外网不通的问题，可以参考虚拟机连接外网虽然不太懂，但是很管用。。2.配置主机名vi /etc/sysconfig/network3.关闭防火墙chkconfig iptables off4.安装ssh客户端...

2019-09-09 21:02:00 380 1

米斯特拉克的博客