simplelife12138-优快云博客

原创 Spark笔记(二):算子,cache,checkpoint

算子算子分类Transformation算子:不触发提交作业,完成作业中间处理过程 Value数据类型的Transformation算子输入分区与输出分区一对一型 1 map2 flatmap3 mapPartitions4 glom输入分区与输出分区多对一型 5 union6 cartesian输入分区与输出分区多对多型 7 groupBy输出分区为输入分

2018-01-24 11:34:01 856

原创 SPARK学习笔记

1. 安装SPARK,不再赘述2. shell操作% spark-shellScala> val lines = sc.textFile("/root/spark_test")--加载文件关于RDD: 弹性分布式数据集(Resilient Distributed Dataset,简称RDD) RDD是SPARK最核心的概念,他是在集群中跨等多个机器分区存储的一个只读的对象集合.在典型的Spar

2018-01-24 09:48:04 266

原创 ScalaVSJava特殊语法笔记

Scala号称跟Java很相似,但实际上,差别颇大 Scala拥有很多简化语法,使用灵活多变,从另一个角度理解,就是不适合新人

2018-01-18 13:07:08 249

原创 Hive分区分桶基本操作

重置HIVE登录mysql[root@m ~]# mysql -uroot -p1->MySQLdrop database hive;create database hive;--修改数据库编码alter database grant all on hive.* to hive@'%' identified by '1';grant all on hive.* t

2018-01-15 13:23:32 352

原创项目-Hive操作

第一个文件mydate.sql,设置文件使用的变量值#!/bin/bash#注意:mycollection.sql放的是存放SQL代码的文件名hive -hiveconf mydate="$(date +%Y%m%d)" -f mycollection.sql第二个文件mycollection.sql,存放SQL代码create table if not exists kp

2018-01-14 17:31:45 365

原创大数据第一阶段练习项目说明

1 MR(MapReduce)解析流量日志日志格式： ip地址 - - 当前时间(DD/M/YY:HH:MM:SS +UTC) “GET /访问地址URL 请求协议” 访问状态流量解析结果： ip地址\t当前时间(YYYYMMDDHHMMSS，适合中国人的格式)\t网址\t访问状态\t流量特殊说明->解析URL：URL格式：GET /URL 请求协议特殊URL格式：GE

2018-01-13 11:09:25 543

原创 Hive Partition

重置HIVE登录mysql[root@m ~]# mysql -uroot -p1->MySQLdrop database hive;create database hive;--修改数据库编码alter database grant all on hive.* to hive@'%' identified by '1';grant all on hive.* to hi

2018-01-09 16:49:02 369

原创 Hadoop伪集群配置,测试

注意:为免测试出现特殊状况,请严格按照样板参数进行配置,了解参数配置原则的可以自行修改注意:为免测试出现特殊状况,请严格按照样板参数进行配置,了解参数配置原则的可以自行修改注意:为免测试出现特殊状况,请严格按照样板参数进行配置,了解参数配置原则的可以自行修改环境及软件说明: windows7 64位 xshell5 vmware12 centOS7 jdk1.8.0_152.

2018-01-03 16:14:44 316

原创大数据概述

什么是大数据通过分布式存储技术存储海量数据,然后运用分布式运算框架并分析挖掘出有价值的信息.核心概念:海量数据存储–通过分布式技术,整合众多PC机的存储,从而实现一个大的存储系统.例如:海量的订单信息,天气信息,个人信息……大数据计算–通过分布式技术,整合众多PC机的CPU,实现一个大的运算系统.例如:产品推荐,气象计算,行为统计……相关概念:高可用(HA):备份及高可靠性.数据同步:保

2017-12-25 14:15:28 664

原创 Oracle SQL 事务及触发器

事务一个事务的生命周期包含三个部分: 1. 事务开始 2. 事务执行 3. 事务结束Oracle不会显式声明事务开始,而是由Oracle自行处理commit rollback set point rollback to point事务的属性和隔离级别read only 只读 read write 读写 serializable 隔离级别隔离级别的事务是

2017-12-18 10:52:54 582

原创学习历程->Oracle流程控制及存储过程

流程控制条件语句 if else-- 声明一个变量ideclare i number;-- begin 开始存储过程beginselect count(*) into i from DVD_USER;if i>0 and i5 thendbms_output.put_line('0);ELSIF i>=5 THEN dbms_output.put_line

2017-12-07 13:44:45 420

simplelife12138的博客