一只kaokaola-优快云博客

原创堆内内存和堆外内存的区别，以及spark使用get_json_object函数引发的问题

堆内内存堆外内存和堆内内存是相对的二个概念，其中堆内内存是我们平常工作中接触比较多的，我们在jvm参数中只要使用-Xms，-Xmx等参数就可以设置堆的大小和最大值，理解jvm的堆还需要知道下面这个公式：堆内内存 = 新生代+老年代+持久代常见的垃圾回收算法主要有：引用计数器法（Reference Counting）标记清除法（Mark-Sweep）复制算法（Coping）标记...

2019-09-18 09:55:39 1137 1

原创 hive的内部组件及执行流程

1、组件：元存储（Metastore ）－存储“系统目录以及关于表、列、分区等的元数据”的组件。驱动（Driver ）－控制 HiveQL 生命周期的组件，当 HiveQL 查询穿过 Hive时。该驱动管理着会话句柄以及任何会话的统计。查询编译器（Query Compiler）－是一个组件，将HiveQL编译成有向无环图（directed acyclic graph, DAG）形式的m...

2019-05-22 09:39:50 596

首先要思考的第一个问题是，什么是事务事务的官方解释为：是数据库管理系统执行过程中的一个逻辑单位，由一个有限的数据库操作序列构成。可以理解成多件事情当成一件事情来处理，事务的四大属性ACID⑴ 原子性（Atomicity）　　原子性是指事务包含的所有操作要么全部成功，要么全部失败回滚，这和前面两篇博客介绍事务的功能是一样的概念，因此事务的操作如果成功就必须要完全应用到数据库，如果操作失败则不能...

2019-05-22 09:26:15 326

原创如何查看连续几天操作数量的最大记录

题目：求连续日期登录次数最大的用户登录时间里面有详细的时分秒数据，而我们的题目只要求连续的天数，所以使用DATEDIFF函数可以解决，DATEDIFF(d,LoginTime,getdate()) as diffDate ,有多个用户都在登录，因此应该以用户名为分区，登录时间为顺序来计算rownumber，因此，就是下面的表达式：ROW_NUMBER() over(partition by...

2019-05-22 09:17:50 412

原创 linux常用命令

系统信息arch 显示机器的处理器架构(1)uname -m 显示机器的处理器架构(2)uname -r 显示正在使用的内核版本dmidecode -q 显示硬件系统部件 - (SMBIOS / DMI)hdparm -i /dev/hda 罗列一个磁盘的架构特性hdparm -tT /dev/sda 在磁盘上执行测试性读取操作cat /proc/cpuinfo 显示CPU info...

2019-05-22 09:13:02 175

原创【第二天】Spark SQL

DataFrame与RDD的区别DataFrame select、filter的使用说明 //隐式转换必须加上，如果不加，第二种、第三种就会报错 import spark.implicits._ //第一种方式 moviesDF.select(&amp;amp;quot;title&amp;amp;quot;) //第二种方式 moviesDF.select($&amp;amp;quot;title&a

2019-04-24 17:06:33 198

原创 Spark之RDD

rdd的描述/** * A Resilient Distributed Dataset (RDD), the basic abstraction in Spark. Represents an immutable, * partitioned collection of elements that can be operated on in parallel. This class cont...

2019-04-24 17:05:56 165

原创 sparkstreaming+kafka教程与实战

Receiver方式这种方式是在executor上启动一个receiver进程，固定时间间隔拉取一定的数据到内存中，再进行计算，这样会导致内存溢出，随着发展，当数据量到达一定的阀值会save data to WAL也就是会写入磁盘中。Receive方式会自动保存offset到zk中，Direct方式直接连接到kafka的分区上，效率高，不会自动维护偏移量，需要自己维护偏移量offset...

2019-04-24 17:05:04 210

原创 Spark SQL外部数据源

外部数据源package com.kaola.bigdata.sparksql03import org.apache.spark.sql.SparkSessionobject DataSourceAPIApp { def main(args: Array[String]): Unit = { val spark = SparkSession .builder(...

2019-04-24 17:04:10 550

原创 spar core 05

sequenceFileval seqRDD = sc.sequenceFile[BytesWritable,String]("path")泛型主要采用BytesWritable序列化Java serialization速度慢，支持所有序列化类型Kyro serialization速度快，不是支持所有的序列化类型 val conf = new SparkConf().se...

2019-04-24 17:03:40 139

原创 Hive调优

是否出发mr<property> <name>hive.fetch.task.conversion</name> <value>more</value> <description> Expects one of [none, minimal, more]. Some sel...

2019-04-24 17:03:15 178

原创 Linux命令汇总

pwd 显示当前目录[kfk@bigdata-pro01 ~]$ pwd/home/kfk用户所在目录位置root超级管理员/rootkfk普通用户/home/kfkxxxx普通用户/home/xxxx家目录 ~ 表示用户所在的目录cd 切换目录cd 空格或者 cd ~切家目录cd -切上一次目录...

2019-04-24 17:02:46 341

原创 JVM之反射

平台无关性编译时，把源码编译成字节码写一个java代码，利用javac生成class文件，可以利用javap进行反汇编，生成虚指令(字节码)public class com.kaola.zkTest.ByteCodeSample { public com.kaola.zkTest.ByteCodeSample(); Code: 0: aload_0 ...

2019-04-24 17:02:04 170

原创 JVM之内存模型

内存模型-私有部分代码演示：package com.imooc.java.reflect;public class ByteCodeSample { public static int add(int a,int b){ int c = 0; c = a+b; return c; }}对class文件进行反编译ap...

2019-04-24 17:01:38 184

原创 JVM之垃圾回收

判断对象是否为垃圾算法引用计数算法可达性分析算法标记-清除算法图中描述，根据可达性分析算法由GC-Root连接BE、GFK其他的对象在sweep阶段删除，但是缺点是会产生碎片化，如果有大对象进来的话会导致连续空间不足的情况复制算法赋值算法适用于新生代回收，因为对象存活率低标记-整理算法分代收集算法分为Minor GC 新生代与FullGC 老年代...

2019-04-24 17:01:08 151

原创 mysql5.7

安装下载mysql yum源wget https://dev.mysql.com/get/mysql57-community-release-el6-9.noarch.rpm安装yum源yum localinstall mysql57-community-release-el6-9.noarch.rpmyum install mysql-community-server启动...

2019-04-24 17:00:40 151

原创 spark源码编译

源码下载两种方式通过官网下载源码相对简单的方式下载spark-2.4.0.tgz通过github进行源码下载采用这种方式方便后续的跟踪git clone https://github.com/apache/spark.gitgit branch -vgit checkout 指定版本之后就可以通过git pull将代码更新下来源码编译过程1、选择buildin...

2019-04-24 17:00:03 278

原创 CDH生产实践

正常的启动、关闭流程cluster1 stopCloudera Management Service stop三台:service cloudera-scm-agent stopserver机器: service cloudera-scm-server stopmysql: su - mysqladmin，service mysql stop首页图标不出现1.等待1~2mi...

2019-04-08 14:35:59 367

原创 CDH集群部署

官网解读CDH5.12.1官网文档链接spark2与kafka之类的安装文档Linux本次搭建采用Centos7.2，而官网提示RHEL / CentOS / OEL 7.0 is not supported.，centos7.0是不支持5.12.1版本的安装JDKOnly 64 bit JDKs from Oracle are supported. Oracle JDK 7 i...

2019-04-08 14:35:42 321

原创 kafka笔记

Flume1个进程：source channel sinkKafka3个进程：producer（生产者）-- broker（进程）–consumer(消费者)flume–kafka–sparkstreaming/flink主要使用生产者与消费者的apiTopickafka需要根据业务创建多个主题需要注意的一点是，最终数据是落在磁盘上的文件夹（存储在linux系统中）主要存储在...

2019-04-08 14:35:10 424

原创 scala基于IDEA的spark编程

1.创建maven项目2.pom.xml设置<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:...

2019-04-08 14:34:32 252

原创 zookeeper入门到精通

一.zookeeper概述1.管理大量主机的协同服务。2.分布式应用，实现分布式读写技术。3.zk提供的服务Naming service //按名称区分集群中的节点.Configuration management //对加入节点的最新化处理。Cluster management //实时感知集群中节点的增减.Leader election //leader选...

2019-04-08 14:34:14 639

原创 spark sql 05

hive元数据metastore主要存储在mysql数据库中DBS表：存的是数据库信息VERSION表:版本，只有一条数据才能启动hiveTBLS表：存储的表的信息 DB_ID关联TABLE_PARAMS表：TBL_ID关联,存储表的配置信息COLUMNS_V2表：列信息PARTITIONS表：分区信息表与表之间都会有关联join默认情况下，hive的join为Comm...

2019-04-08 14:33:45 142

原创 JVM之ClassLoader

ExtClassLoader: //ExtClassLoader源码中加载的是java.ext.dirs中的类 private static File[] getExtDirs() { String var0 = System.getProperty("java.ext.dirs"); File[] var1; ...

2019-04-08 14:33:24 174

原创 scala教程

scala第一天学习你好！这是你第一次使用 Markdown编辑器所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章，了解一下Markdown的基本语法知识。scala常用版本与开发工具常用版本为2.11.8开发工具采用IDEA基于idea的scala项目开发在pom.xml中将依赖的版本号进行封装&amp;amp;lt;scala.version&amp;amp;gt;...

2019-03-15 18:04:51 808

hucuoshi8718的博客