
技术
qq_24990561
这个作者很懒,什么都没留下…
展开
-
若泽数据-造数据作业用Python造数据
#coding=UTF-8import random // 引入random函数import time // 引入time 函数// url_paths的数组url_paths=[ "class/112.html", "class/128.html", "class/145.html",...原创 2019-03-31 12:33:01 · 333 阅读 · 0 评论 -
Spark学习之-RDD编程
RDD 编程一、概述RDD是resilient distributed dataset的缩写。创建RDD有两种方法:一种是parallize驱动程序中存在的集合;另一种是引用外部存储系统中的数据集来创建。外部数据源象共享文件系统,HDFS,HBase,或者任何提供Hadoop InputFormat的数据源。1、 Parallelized Collections(并行化集合)并行化集合的创...原创 2019-01-31 00:09:12 · 421 阅读 · 1 评论 -
若泽数据-第五次SparkSQL课程总结(一)
二、MataStore (配置保存在MySQL中)1 show databases;2 use hive and show tables;一般有三十多张表,如上图所示 3 select * from DBS \G; DB_ID:每个表隶属数据库,层级结构4 SELECT * FROM VERSION \G;5 select * from VERSION;6 ...原创 2019-02-10 12:14:00 · 909 阅读 · 0 评论 -
若泽数据-第一次SparkStreaming课程总结
第一次SparkStreaming总结原创 2019-02-10 09:29:13 · 266 阅读 · 0 评论 -
软件设计七大原则和设计模式
七大原则开闭原则依赖倒置原则单一职能原则接口隔离原则迪米特法则里氏替换原则合成复用原则设计模式简单工厂工厂方法模式抽象工厂模式建造者模式单例模式原型模式外观模式装饰者模式适配器模式享元模式组合模式桥接模式代理模式模版模式迭代器模式策略模式解释器模式观察者模式备忘录模式命令模式中介者模式责任链模式访问者模式状态模式先将它们一一列...原创 2019-02-16 00:03:19 · 588 阅读 · 0 评论 -
软件设计七大原则之二----依赖倒置原则
依赖倒置原则定义:高层模块不应该依赖低层模块,他们都应该依赖其抽象,抽象不应依赖细节,而细节应该依赖抽象,针对抽象编程,而不应该对实现编程。## 优点:减少类与类之间的耦合性;提高系统的稳定性;增加可读性和可维护性;降低修改程序所造成的风险。Coding 来一个例子吧!!!!版本11. 创建一个ICourse类 package com.maomao.design....原创 2019-02-15 23:21:03 · 304 阅读 · 0 评论 -
软件设计七大原则之一开闭原则
开闭原则定义:对扩展开放,对修改源码关闭,用抽象构建框架,用实现扩展细节;优点:提高系统的扩展性,可利用性、可维护性;核心:面向抽象编程,其它设计原则的基础下面是一个例子1.创建一个抽象类ICoursepackage com.maomao.design.principle.openclose;public interface ICourse { Integer getId...原创 2019-02-15 21:54:48 · 634 阅读 · 0 评论 -
Spark学习总结之RDD-Spark编程的基石
一 概述概括而言,每一个Spark应用程序包含一个运行在主函数的驱动程序和在集群中运行和执行的各种并行操作。RDD(Resilient Distributed Dataset:弹性分布数据集)是Spark提供的主要抽象概念。那RDD到底是什么呢?它是集群跨节点分区元素的集合,这个集合可以被并行处理。创建RDD的方式有两种:一种是用Hadoop文件系统中或者其它可以支持Hadoop的文件系统中的文...原创 2019-01-30 11:01:30 · 122 阅读 · 0 评论 -
Spark主要特点
1.Spark的主要特点1.1 速度快Spark 使用DAG 调度器、查询优化器和物理执行引擎,能够在批处理和流数据获得很高的性能。根据官方的统计,它的运算速度是hadoop的100x倍,应该是有一定的条件吧!1.2 使用简单Spark的易用性主要体现在两个方面。一方面,我们可以用较多的编程语言来写我们的应用程序,比如说Java,Scala,Python,R 和 SQL;另一方面,Spa...原创 2019-01-30 10:00:34 · 13407 阅读 · 2 评论 -
作业:大数据之Sqoop的使用
1 下载sqoopcd ~/software wget http://mirrors.hust.edu.cn/apache/sqoop/1.4.6/2 解压 sqooptar -zxf sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz -C ~/app/3 配置 sqoop(1)将sqoop目录配置到~/.bash_profile(2)修改配置...原创 2019-01-31 08:07:16 · 229 阅读 · 0 评论 -
Spark学习之Join的总结
Spark学习之Join的总结原创 2019-02-11 11:02:56 · 141 阅读 · 0 评论 -
Hive 常见属性配置
Hive 常见属性配置1.1Hive 数据仓库位置配置1)Default 数据仓库的最原始位置是在 hdfs 上的:/user/hive/warehouse 路径下2)在仓库目录下,没有对默认的数据库 default 创建文件夹。如果某张表属于 default 数据库,直接在数据仓库目录下创建一个文件夹。3)修改 default 数据仓库原始位置(将 hive-default.xml.te...原创 2019-02-11 11:13:38 · 222 阅读 · 0 评论 -
Spark 面试题目
1.Spark on Yarn 两种方式的区别及工作流程2.Spark 内存管理3.Spark作业资源的设置情况 excutor 个数 memory core driver4.DataFrame/DataSet/RDD的区别及编程5.数据倾斜6.RDD的特点7.Spark 作业执行流程 Count后续做了什么事情8.Spark 中隐式转换的作用:结合Scala来学习9.Spark和...原创 2019-03-31 12:06:25 · 278 阅读 · 0 评论 -
Flume+Kafla+Spark Streaming链路打通
一、日志生成1、日志生成器开发之产生url和ip信息vim generate_log.pyimport randomurl_paths=[ "class/112.html", "class/128.html", "class/145.html", "class/146.html", "class/131.html", "class/130.html", "learn/8...原创 2019-03-30 22:21:31 · 268 阅读 · 0 评论 -
Spark 内存管理
1.两种memory的职能execution: 在shuffles,join,sort and aggregation中的计算storage:跨集群内部数据的catche和propagating2.它们之间的角逐,两者共享一个统一区域(M)(1)当excution空闲的时候,storage会使用全部可用的内存,反之亦然(2)Ex会抢掉storage在必要的时候,但是只有全部的stor...原创 2019-03-30 22:16:02 · 212 阅读 · 0 评论 -
Spark on Yarn
Spark on Yarn 两种方式的区别及工作流程cluster mode: Spark Driver runs inside an application master processmanaged by YARN on the master启动spark 应用程序后 客户端可以关掉集群模式:Spark Driver运行在application master 进程中,而这个进程在集群中受...原创 2019-03-30 22:11:48 · 165 阅读 · 0 评论 -
有离线处理和实时计算对比
在大数据的数据处理中:有离线处理和实时计算对比分别在以下四个方面有所区别1. 存储,即数据来源离线一般存储在HDFS,而且数据量大实时计算的话,一般是消息队列,如kalka,需要实时增加/修改 记录过来的某一时间内的某一批次的数据2 处理过程,使用框架离线:MapReduce: Map + Reduce 实时:Spark(DStream/SS) 或者 Storm \Flink等其...原创 2019-02-21 00:54:43 · 4946 阅读 · 0 评论 -
Kafka特点及应用场景
Kafka特点Kalka 作为当下十分流行的分布式消息队列和流处理框架,它性能优越。它有以下几个特点:1. 分布式作为大数据中十分重要的流处理框架,要想提高和保证其性能(如计算、数据传递),分布式是作为任何大数据框架必须具备的天然属性。2. 高性能:其高性能有两方面的体现:一是高吞吐量,可以达到几十万每秒的级别的吞吐量,为什么它有如此高的吞量,很重要的原因是它支持高并发机制;其二是低...原创 2019-02-21 00:03:58 · 683 阅读 · 0 评论 -
Design Patterns for using foreachRDD
dstream.foreachRDD is a powerful primitive that allows data to be sent out to external systems. However, it is important to understand how to use this primitive correctly and efficiently. Some of the ...转载 2019-02-19 22:37:19 · 177 阅读 · 0 评论 -
一个模拟双色球彩票的Java代码
package com.spark.hbase;// 创建一个产生数字的App类!!!public class NumberProduceApp { public int getRandomNumberFromArr(int[] arr){ int index= (int)(0+Math.random()*(arr.length-1)); return arr[index...原创 2019-02-17 21:29:55 · 4702 阅读 · 0 评论 -
Spark性能调优-高级篇
##一、 前言对于使用Spark的大数据研发工程师而言,由于我们硬件基础设施的有限性,而我们的运算数据却可能存在很大的不确定性。因些,熟练掌握Spark各种情况下的性能优化对于大数据工程师而言是十分有必要的。##二、 数据倾斜调优其实,对于大数据处理,数据量大不是什么大问题,而最怕的是数据倾斜;这也可能是我们大数据计算中一个最棘手的问题,此时Spark作业的性能会比期望差很多。数据倾斜调优,...转载 2019-02-06 09:22:53 · 241 阅读 · 0 评论 -
Java操作HDFSAPI
package com.imooc.bigdata.hadoop.hdfs;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.*;import org.apache.hadoop.io.IOUtils;import org.apache.hadoop.util.Progressable;impo...原创 2019-02-04 11:12:16 · 447 阅读 · 0 评论 -
Hive初步
一 Hive 基本概念1.1 什么是 HiveHive:由 Facebook 开源用于解决海量结构化日志的数据统计。Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并 提供类 SQL 查询功能。本质是:将 HQL 转化成 MapReduce 程序 1)Hive 处理的数据存储在 HDFS2)Hive 分析数据底层的实现是 MapReduce 3)执...原创 2019-01-24 23:15:19 · 200 阅读 · 0 评论 -
Java面试内容提纲
第一章1-1 主要内容介绍第二章2-1 网络基础知识讲解2-2 TCP的三次握手2-3 TCP的三次握手2-4 TCP的四次握手2-5 TCP和UDP的区别2-6 TCP的滑窗2-7 HTTP相关2-8 HTTP相关22-9 HTTP和HTTPS的区别2-10 Socket相关2-11 网络知识总结第三章3-1 数据库架构3-2 优化你的索引-运用二叉树3-3 优...原创 2019-01-24 22:48:12 · 275 阅读 · 0 评论 -
自定义函数UDF到Hive源码编译
1.下载源码wget http://archive.cloudera.com/cdh5/cdh/5/hive-1.1.0-cdh5.7.0-src.tar.gz2.解压下载的源码3.自己定义一个Java类继承UDF…package com.spark.udf.hive;import org.apache.hadoop.hive.ql.exec.Description;import o...原创 2019-01-24 22:32:39 · 276 阅读 · 0 评论 -
从hive中matastore表中删除分区表
1.引入分区表(需要根据日期对日志进行管理)/user/hive/warehouse/log_partition/20190101/20190101.log/user/hive/warehouse/log_partition/20190102/20190102.log/user/hive/warehouse/log_partition/20190103/20190103.log2.创建分区...原创 2019-01-24 22:29:22 · 350 阅读 · 0 评论 -
USE OF FLUME-HOMEWORK
hadoop001技术选型…exec source + memory channel + avro sinkavro source + memory channel + logger sinkexec-memory-avro.sources = exec-sourceexec-memory-avro.sinks = avro-sinkexec-memory-avro.channels...原创 2019-01-24 22:17:10 · 131 阅读 · 0 评论 -
关于tuning Spark的内容总结
本文的内容根据spark官网***tuning spark***的内容总结,主要包括以下内容**Data 序列化Memory Tuning影响调优的其它因素总结**由于大多数spark运算都是基于内存进行的,因此集群中的任何资源(CPU、网络带宽和内存)都会成为制约和影响spark程序运行和因素和瓶颈。更多情况是,如果数据与内存相匹配,就是内存够存我们的数据,那么此时的瓶颈就是网络...翻译 2018-12-22 18:32:57 · 171 阅读 · 0 评论 -
用scala写一个wordcount程序
在终端目录/Users/liujingmao/Downloads创建一个文件scala_wordcount,文件包含以下words hello word hello word you and me you and me hello word cat dog cat dog and me you and his miss在idea中创建一个scala_project,并创建一个Wor...原创 2018-12-22 09:10:32 · 778 阅读 · 0 评论 -
关于本地虚拟机搭建Hadoop集群出现Host key verfication failed的解决方法
因为之前搭建过Hadoop集群(hadoop001,hadoop002,hadoop003),然后过了一段时间没有启动。在hadoop001机子启动./start-dfs.sh后出现以下现象:The authenticity of host ‘hadoop001 (192.168.43.88)’ can’t be established.RSA key fingerprint is de:44...原创 2018-11-27 21:52:33 · 4115 阅读 · 2 评论 -
第二章 Hive的安装
一、下载1.1Hive 安装地址1)Hive 官网地址: http://hive.apache.org/2)文档查看地址: https://cwiki.apache.org/confluence/display/Hive/GettingStarted3)下载地址: http://archive.apache.org/dist/hive/4)github 地址: https://githu...原创 2019-01-25 20:40:38 · 122 阅读 · 0 评论 -
Hive函数
1系统自定义的函数1)查看系统自带的函数 hive> show functions;2)显示自带的函数的用法hive> desc function upper;3)详细显示自带的函数的用法hive> desc function extended upper;自定义函数1)Hive 自带了一些函数,比如:max/min 等,但是数量有限,自己可以通过...原创 2019-01-25 21:12:12 · 105 阅读 · 0 评论 -
Hive企业级调优
1. Fetch 抓取Fetch 抓取是指,Hive 中对某些情况的查询可以不必使用 MapReduce 计算。例如: SELECT * FROM employees;在这种情况下,Hive 可以简单地读取 employee 对应的存储目录 下的文件,然后输出查询结果到控制台。在 hive-default.xml.template 文件中 hive.fetch.task.conversion ...原创 2019-01-25 21:29:21 · 127 阅读 · 0 评论 -
Hadoop 常用命令
Usage: hadoop fs [generic options] [-appendToFile <localsrc> ... <dst>] [-cat [-ignoreCrc] <src> ...] [-checksum <src> ...] [-chgrp [-R] GROUP PATH...] [-chmod [-R] <MO...原创 2019-02-04 07:55:36 · 151 阅读 · 0 评论 -
shell 编程学习之find命令总结
find命令总结:常用选项: -name 查找/etc目录下以conf结尾的文件 find /etc -name '*conf' -iname 查找当前目录下文件名为aa的文件,不区分大小写 find . -iname aa -user 查找文件属主为hdfs的所有文件 find . -user hdfs -group 查找文件属组为yarn的所有文件 find . -...原创 2019-02-04 07:46:54 · 339 阅读 · 0 评论 -
Spark源码编译
对于学习Spark框架的技术人员,学习到一定的程序,有些原来的东西已经不能满足我们的要求,修改源码是我们的必经之路。一、下载源码 wget https://archive.apache.org/dist/spark/spark-2.4.0/spark-2.4.0.tgz二、解压 tar -xvf spark-2.4.0.tgz -C 当前目录 三、编译3.1 编译的准备,修...原创 2019-02-03 20:00:09 · 209 阅读 · 0 评论 -
若泽数据第四次SparkCore主要内容总结
若泽数据第四次SparkCore主要内容总结原创 2019-02-03 16:53:33 · 187 阅读 · 0 评论 -
Hadoop源码编译
前置要求Java 1.8源码下载Maven 下载protobuf 2.5+下载一、安装相关的依赖库(用root或者有sudo权限的用户) sudo yum install -y svn ncurses-devel gcc* sudo yum install -y openssl openssl-devel svn ncurses-devel zlib-devel libtoo...原创 2019-02-03 11:10:43 · 177 阅读 · 0 评论 -
若泽数据第三次SparkCore总结
1 Repartition和Colasce的区别2 什么是Shuffle3 RDD的特性之一是RDD之间存在一定的依赖,有几种依赖,它们分别是什么4 GroupByKey和reduceByKey的区别5 Combiner预聚合...原创 2019-02-03 06:52:50 · 266 阅读 · 0 评论 -
若泽数据第一次SparkCore总结
一、RDD主要特点及在源码的体现1.1 RDD主要特点:(1) 被创建的RDD包含一系列的分区,这是它可以并行处理的基础;(2) RDD之间一系列的依赖;(3) 运算每一个分区的函数;(4) Partitioner=&gt; K-V RDDs (RDD是基于哈希分区);(5) 尽量选择好的存储位置来运算每一个分区。1.2 RDD特点主要特点在源码的体现(1)特点一: prot...原创 2019-02-01 09:19:48 · 208 阅读 · 0 评论