
解决问题
qq_24990561
这个作者很懒,什么都没留下…
展开
-
MySQL 和 Docker 学习笔记
一、总结简介1.1 准备1.2 搭建VMware 虚拟机下载安装VMware虚拟机https://www.vmware.com/cn.html下载CentOS镜像文件http://mirrors.sohu.com/centos/7/isos/x86_64/CentOS-7-x86_64-Everything-1708.iso配置虚拟机必须要选择桥接网络。如果采用默认的NA...原创 2020-03-04 17:45:11 · 447 阅读 · 0 评论 -
若泽数据-造数据作业用Python造数据
#coding=UTF-8import random // 引入random函数import time // 引入time 函数// url_paths的数组url_paths=[ "class/112.html", "class/128.html", "class/145.html",...原创 2019-03-31 12:33:01 · 333 阅读 · 0 评论 -
Flume+Kafla+Spark Streaming链路打通
一、日志生成1、日志生成器开发之产生url和ip信息vim generate_log.pyimport randomurl_paths=[ "class/112.html", "class/128.html", "class/145.html", "class/146.html", "class/131.html", "class/130.html", "learn/8...原创 2019-03-30 22:21:31 · 268 阅读 · 0 评论 -
Spark on Yarn
Spark on Yarn 两种方式的区别及工作流程cluster mode: Spark Driver runs inside an application master processmanaged by YARN on the master启动spark 应用程序后 客户端可以关掉集群模式:Spark Driver运行在application master 进程中,而这个进程在集群中受...原创 2019-03-30 22:11:48 · 165 阅读 · 0 评论 -
Kafka学习
Kafka概述和消息系统类似消息中间件:生产者和消费者。妈妈:生产者你:消费者馒头:数据流、消息 正常情况下: 生产一个 消费一个 其他情况: 一直生产,你吃到某一个馒头时,你卡主(机器故障), 馒头就丢失了 一直生产,做馒头速度快,你吃来不及,馒头也就丢失了 拿个碗/篮子,馒头做好以后先放到篮子里,你要吃的时候去篮子里面取出来吃篮子/框: Kafka 当...原创 2019-02-21 00:58:19 · 134 阅读 · 0 评论 -
有离线处理和实时计算对比
在大数据的数据处理中:有离线处理和实时计算对比分别在以下四个方面有所区别1. 存储,即数据来源离线一般存储在HDFS,而且数据量大实时计算的话,一般是消息队列,如kalka,需要实时增加/修改 记录过来的某一时间内的某一批次的数据2 处理过程,使用框架离线:MapReduce: Map + Reduce 实时:Spark(DStream/SS) 或者 Storm \Flink等其...原创 2019-02-21 00:54:43 · 4946 阅读 · 0 评论 -
Kafka特点及应用场景
Kafka特点Kalka 作为当下十分流行的分布式消息队列和流处理框架,它性能优越。它有以下几个特点:1. 分布式作为大数据中十分重要的流处理框架,要想提高和保证其性能(如计算、数据传递),分布式是作为任何大数据框架必须具备的天然属性。2. 高性能:其高性能有两方面的体现:一是高吞吐量,可以达到几十万每秒的级别的吞吐量,为什么它有如此高的吞量,很重要的原因是它支持高并发机制;其二是低...原创 2019-02-21 00:03:58 · 683 阅读 · 0 评论 -
Design Patterns for using foreachRDD
dstream.foreachRDD is a powerful primitive that allows data to be sent out to external systems. However, it is important to understand how to use this primitive correctly and efficiently. Some of the ...转载 2019-02-19 22:37:19 · 177 阅读 · 0 评论 -
一个模拟双色球彩票的Java代码
package com.spark.hbase;// 创建一个产生数字的App类!!!public class NumberProduceApp { public int getRandomNumberFromArr(int[] arr){ int index= (int)(0+Math.random()*(arr.length-1)); return arr[index...原创 2019-02-17 21:29:55 · 4702 阅读 · 0 评论 -
再打开一个客户端窗口启动 hive,会产生 java.sql.SQLException 异常。
坑> Exception in thread "main" java.lang.RuntimeException:> java.lang.RuntimeException: Unable to instantiate> org.apache.hadoop.hive.ql.metadata.SessionHiveMetaSt原创 2019-01-25 20:45:37 · 461 阅读 · 0 评论 -
USE OF FLUME-HOMEWORK
hadoop001技术选型…exec source + memory channel + avro sinkavro source + memory channel + logger sinkexec-memory-avro.sources = exec-sourceexec-memory-avro.sinks = avro-sinkexec-memory-avro.channels...原创 2019-01-24 22:17:10 · 131 阅读 · 0 评论 -
关于tuning Spark的内容总结
本文的内容根据spark官网***tuning spark***的内容总结,主要包括以下内容**Data 序列化Memory Tuning影响调优的其它因素总结**由于大多数spark运算都是基于内存进行的,因此集群中的任何资源(CPU、网络带宽和内存)都会成为制约和影响spark程序运行和因素和瓶颈。更多情况是,如果数据与内存相匹配,就是内存够存我们的数据,那么此时的瓶颈就是网络...翻译 2018-12-22 18:32:57 · 171 阅读 · 0 评论 -
用scala写一个wordcount程序
在终端目录/Users/liujingmao/Downloads创建一个文件scala_wordcount,文件包含以下words hello word hello word you and me you and me hello word cat dog cat dog and me you and his miss在idea中创建一个scala_project,并创建一个Wor...原创 2018-12-22 09:10:32 · 778 阅读 · 0 评论 -
第三次作业-用scala写一个wordcount程序
第一:用scala写一个wordcount程序***package com.scala.wordcountobject wordcountApp {def main(args: Array[String]): Unit = {//造一个List,模拟读取文件val wordlist= List("hello scala","hello word&原创 2018-12-15 17:56:24 · 305 阅读 · 0 评论 -
关于本地虚拟机搭建Hadoop集群出现Host key verfication failed的解决方法
因为之前搭建过Hadoop集群(hadoop001,hadoop002,hadoop003),然后过了一段时间没有启动。在hadoop001机子启动./start-dfs.sh后出现以下现象:The authenticity of host ‘hadoop001 (192.168.43.88)’ can’t be established.RSA key fingerprint is de:44...原创 2018-11-27 21:52:33 · 4115 阅读 · 2 评论