- 博客(178)
- 资源 (8)
- 收藏
- 关注
1.mariDB实践(包含安装)
flink运行需要Java环境进行支持,因此需要java和scala的相关支持:目前相关版本情况如下所示:flink1.10java1.8scala 21.·flink1.10的相关下载链接如下所示:https://flink.apache.org/downloads.html#apache-flink-1100下载的文件为:https://www.apache.o...
2020-03-02 15:10:26
507
原创 1.sparksql读取sql的相关处理操作
19/11/12 20:32:53 INFO CodeGenerator: Code generated in 12.9619 ms19/11/12 20:32:53 INFO CodeGenerator: Code generated in 11.6207 ms19/11/12 20:32:53 INFO MemoryStore: Block broadcast_2 stored as v...
2019-11-12 20:35:04
519
原创 sparksql之通过 structType 创建 DataFrames(编程接口)
import org.apache.avro.generic.GenericData.StringTypeimport org.apache.spark.rdd.RDDimport org.apache.spark.sql.types.{IntegerType, StructField, StructType}import org.apache.spark.sql.{DataFrame, ...
2019-11-12 20:27:36
942
原创 1.sparksql的通过 case class 创建 DataFrames(反射)
import org.apache.spark.sql.SQLContextimport org.apache.spark.{SparkConf, SparkContext}object TestDataFrame1 { def main(args: Array[String]): Unit = { val conf=new SparkConf().setAppName("RD...
2019-11-12 20:09:37
910
原创 1.hive的安装配置
hive报错记录之:hive是依托于hadoop的,因此需要去先启动hadoop的相关命令:先把hadoop下面的守护进程全部启动:出现了新的错误:出现了新问题,hive的临时目录没有设置好;解决方案如下所示:https://blog.youkuaiyun.com/wodedipang_/article/details/72718138出现了新问题:相关的...
2019-09-10 20:35:36
236
原创 Java并发(2)----Thread类
将runable对象转变为工作任务的传统方式是把它提交给一个Thread构造器,下面的例子展示了如何使用Thread来驱动LiftOff对象:其中Thread构造器源码如下所示:/* * Copyright (c) 1994, 2016, Oracle and/or its affiliates. All rights reserved. * ORACLE PROPRIETARY...
2019-07-15 14:27:44
296
原创 1.JavaGC回收机制
1.回收的原因:如果不进行垃圾回收,内存迟早会被全部耗空,因此垃圾回收是必须的。2.需要回收的对象是什么?解答:那些内存是需要去回收,是回收机制第一个需要考虑的,回收的就是不可再被使用的对象。JVM内存分区模型:Hotpot VM是把Heap Area分为young generation和oldgeneration两个物理区域,也就是常说的新生代和老生代。特征如下:...
2019-06-04 16:14:14
180
原创 1.hive的离线场景应用
1.搭建hive的相关的配置以及过程:其中hive的完整的目录结构如下所示:进行相关的解析,hive的完整目录如下所示:使用linux命令将mysql的相关的jar包放入到hive的lib目录下面去:放好之后,目录显示过程,如下所示:相关的jar包已经放好了,接下来使用mysql代替hive默认的数据库,进行相关的mestore的相关配置,过程如下所示:默认情况...
2019-06-04 16:13:41
380
原创 1.hive的metastore相关的配置步骤
进行相关的赋权操作,步骤如下所示:给hive存储相关的分配权限:相关过程如下所示:进行metastore相关的配置的过程中,首先要先把mysql的服务停掉,相关过程如下所示:进入到hive的bin目录下,进行metastore的初始化相关操作,过程如下所示:肉眼可见的得知:Metastore connection URL: jdbc:mysql:...
2019-06-04 16:13:18
997
原创 1.spark2.0的spark session相关的操作过程文档集合
相关的hive的链接如下所示:http://master:50070/explorer.html#/user/hive/warehouse/相关代码显示如下所示:<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmln...
2019-06-04 16:13:01
250
原创 1.flume配置相关解析
#定义三大组件的名称agent1.sources = source1agent1.sinks = sink1agent1.channels = channel1# 配置source组件# Spooling Directory Source,因为flume服务down掉的时候,能自动记录上一次读到的数据agent1.sources.source1.type = spooldirag...
2019-06-04 16:12:39
170
原创 1.深入剖析hadoop的运行过程以及日志采集经过
Hadoop中的日志包含三个部分,Application Master产生的运行日志和Container的日志查看hdfs下的目录命令为hdfs dfs -ls \如图所示:其中环境变量中的配置情况如下所示:其中诸如NameNode、DataNode、ResourceManage等系统自带的服务输出来的日志默认是存放在{hadoop_home}的logs目录下面的:如下...
2019-06-04 16:12:16
349
原创 1.azkaban3.X安装步骤
下载完成之后,进入azkaban的相关文件夹:进入该目录:将此源码的true改成false:运行过后来下载相关的数据:
2019-06-04 16:11:45
544
1
原创 1.flume相关配置以及配置含义
flume的整体基础框架如下所示:#定义三大组件的名称1.其中source是flume日志采集的起点,监控文件系统目录,其中比较常见的是Spooling Directory Source,来进行一个数据因为意外情况数据采集中断,恢复过后,从异常中断位置继续采集。2.flume的utf配置是默认按照utf-8来进行配置的。agent1.sources = source1agent1...
2019-04-30 16:29:15
794
原创 1.hive的beeline相关过程
在bin目录下,启动beeline进行相关操作:通过beeline客户端可以得知,相关的表操作过程如下所示:在hive的相关表下有metastore,testb1以及wt_access_log的这三类表。进入beeline的相关的用户名和密码:用户名:root密码:123启动hiveserver2相关语句,如下所示:启动过后,显示相关进程可以得知,多了run...
2019-04-15 15:13:31
624
原创 1.win10下在IDEA下进行mllib相关的学习
1.IDEA的pom配置情况如下所示:<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:sch...
2019-04-11 10:31:15
616
原创 1.机器学习公开课
吴恩达:http://open.163.com/special/opencourse/machinelearning.html
2019-04-10 16:46:21
237
转载 1.hadoop大数据体系相关的操作过程如下所示:
Es以及插件相关的过程:https://blog.youkuaiyun.com/sinat_28224453/article/details/51134978flume配置相关过程:https://blog.youkuaiyun.com/u011254180/article/details/80000763linux下hadoop的相关配置操作如下所示:https://www.cnblogs.com/...
2019-04-10 14:36:33
143
原创 1.hive的metastore的初始化出现问题的解决方案
在此之前mysql的防火墙已经关闭了,相关操作过程如下所示:进行相关的操作过程如下所示:防火墙设置了开机自启动问题:启动Schema的相关问题,具体过程如下所示:...
2019-04-08 18:20:59
2496
原创 1.使用IDEA来进行本地的sparkSQL本地开发
相关链接如下操作:https://blog.youkuaiyun.com/jzy3711/article/details/87716303,该链接是转载的,不是我自己写的。1.将hive-site放置在resource目录下:复制hive-site.xml将Spark-Home/conf目录下的hive-site.xml复制到IDEA工程的resource目录下如下图所示:2.在s...
2019-04-08 16:51:18
1943
转载 1.IDEA快捷键常用整理如下:
https://blog.youkuaiyun.com/Happy_wu/article/details/80420402以上是IDEA
2019-04-04 17:04:14
111
转载 1.hive的配置,表,含义集合
1.hive的相关配置过程https://blog.youkuaiyun.com/hjy1821/article/details/832419312.hive相关的表的过程操作;https://blog.youkuaiyun.com/hjy1821/article/details/832433073.hive之metastore以及配置管理:https://blog.youkuaiyun.com/skywalke...
2019-04-04 11:19:12
125
原创 1.大数据环境以及相关参数配置解读
1.首先进入hadoop的平台进行一个相关的展示操作:这里目前用的是已经安装好的hadoop的版本,进行相关的操作:转移到相关的hadoop的安装目录下进行相关的操作:相关的路径,如下所示:进行一个hadoop的相关的目录的一个展示操作:下面依次去解释一下相关的各个目录的一些含义的,作用,以及未来会使用的一些方式。与此同时也是进行一个相关的从节点的相关的配置方式...
2019-03-21 14:06:55
322
原创 1.JavaGC回收机制
//相关演示代码如下所示package JVM方面的理解;import java.util.ArrayList;import java.util.List;import java.util.Random;public class outofMemoryErrorTest { public static void main(String[] args)throws Throwa...
2019-03-12 13:40:28
110
原创 1.hashtable的相关解析
其中可以得知clone也是可以进行相关的实例化操作的。其中hashtable的初始容量如下所示:Hashtable的初始容量是11,装载因子也是0.75.其中对对于hashmap和hashtable的一个对比相关的过程,如下所示:其中因为hashtable是因为syechronized因此是线程安全的。其中hashtable的构造函数是的默认的参数分别是11和0,7...
2019-03-12 12:25:01
193
原创 1.hashMap源码分析
hashmap由数组+链表组成的,数组是hashmap的主体,链表是为了解决哈希冲突而存在的。static class Entry<k,v> implements map.Entry<k,v>{ final k key; //指的是map中的key V value; //指的是value值 Entry<k,v> n...
2019-03-12 11:06:46
109
原创 1.spark streaming的整体容错性的图解
关键词driver,checkPoint,以及Executor端容错机制:热备class MyReceiver extends Receiver(Storagelevel.memory_only_2){ //当memory.level这里是2的话就是进行一个热备份,默认是双倍的,进行一个热备份.}//冷备份WAL,在每次将数据进行写入的时候,先写一个log的日志,进行一个备份....
2019-03-09 15:43:14
213
原创 1.socket网络编程
package com.pd;import java.io.IOException;import java.io.InputStream;import java.io.OutputStream;import java.net.ServerSocket;import java.net.Socket;import org.apache.jasper.tagplugins.jstl.c...
2019-03-09 14:07:58
203
原创 基于GC的回收集
x相关的代码显示如下所示|:public class Book { Boolean Checkout=false; Book(Boolean checkout) { checkout=checkout;} void checkIn(){ Checkout=false; } protected void finalize(){ if(C...
2019-03-08 22:33:34
278
原创 1.Hive与传统数据仓库的比较
1》存储:1.Hive是存储在HDFS,理论上有无限扩展的可能性,因为从文件角度进行理解,hdfs是一个文件夹。2.传统型数据仓库,集群存储,存在容量上限的情况,扩充表容量也有限制,计算速度会急剧下降,只能适应于数据量比较小的商业应用,对于超大规模数据是无能为力的。2》执行引擎1、HIVE依赖于MR框架,可进行各类优化比较少,但是比较简单。2.传统数据仓库可以选择更高效的算法来...
2019-01-12 18:07:10
3471
1
原创 1.深入理解hive之数据仓库和数据库的区别
不同之处:1.数据库主要是OLTP的服务2.数据仓库主要进行的是OLAP的服务OLTP:联机事务处理,用来实时记录交易信息,对这类系统的期望是能够快速返回响应信息。,一般是在毫秒级别的,能够快速响应的原因是拥有健全的索引机制。如B+的mysql健全索引,以及B的oracle索引,能够快速的进行DML的一些操作。关键词:事务(原子性的)扩展一下:1》数据的事务处理是行级的...
2019-01-12 17:34:02
2240
原创 1.深入理解hive的前世今生(一)
同类型工具PIG(以后也会深入讲述)MR程序(全称是mapreduce程序,是离线程序,在hadoop的集群上进行跑)。//Hadoop对于服务器要求不够,普通机器也可以作为datanode的存储节点。hive是强依赖于hadoop的,也就是离开了hadoop是不行的,必须拥有hadoop。是facebook进行开发的。hadoop集群里面有一个很大的数据,以及需要去计算的需求。...
2019-01-12 16:20:38
1072
原创 1.java之对象的建立
java中创建对象的三种方式为:1》clone()2》反序列化3》使用new关键字进行创建对象。创建过程如下所示:1.虚拟机遇到一条new指令的时候,首先将检查这个指令的参数是否在常量池中定位到一个类的符号引用,并且检查这个符号引用代表的类是否被加载,解析和初始化过 。虚拟机会深入到class的层次。如果没有,那么就必须要先执行相应的类加载过程。在类加载检查通过后,虚拟...
2019-01-11 20:40:46
235
原创 1.JVM特性之java内存区域与内存溢出异常
JVM是java的虚拟机,java虚拟机在执行java程序的时候会把管理的内存划分为若干个不同的数据区域这些区域都有自己各自的用途,以及创建和销毁的时间,有的随着虚拟机进程的启动而存在,有的依赖于线程的启动和结束而建立和销毁,根据官方规范,java虚拟机所管理的内存会包括以下几个运行时的数据区域。方法区(Method Area),虚拟机栈(VM stack),本地方法栈(Native Me...
2019-01-11 20:07:38
198
原创 1.scala组合表达式之嵌套
"C:\Program Files\Java\jdk1.8.0_181\bin\java.exe" "-javaagent:C:\Users\Lenovo\AppData\Roaming\JetBrains\IntelliJ IDEA Community Edition 2018.2.2\lib\idea_rt.jar=60589:C:\Users\Lenovo\AppData\Roaming\...
2019-01-11 19:04:27
275
1
cloudera-manager-installer.bin
2019-07-15
kibana_6.4.0
2018-11-06
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人