- 博客(11)
- 收藏
- 关注
原创 Spark笔记(二):算子,cache,checkpoint
算子算子分类Transformation算子:不触发提交作业,完成作业中间处理过程 Value数据类型的Transformation算子 输入分区与输出分区一对一型 1 map2 flatmap3 mapPartitions4 glom输入分区与输出分区多对一型 5 union6 cartesian输入分区与输出分区多对多型 7 groupBy输出分区为输入分
2018-01-24 11:34:01
810
原创 SPARK学习笔记
1. 安装SPARK,不再赘述2. shell操作% spark-shellScala> val lines = sc.textFile("/root/spark_test")--加载文件关于RDD: 弹性分布式数据集(Resilient Distributed Dataset,简称RDD) RDD是SPARK最核心的概念,他是在集群中跨等多个机器分区存储的一个只读的对象集合.在典型的Spar
2018-01-24 09:48:04
235
原创 ScalaVSJava特殊语法笔记
Scala号称跟Java很相似,但实际上,差别颇大 Scala拥有很多简化语法,使用灵活多变,从另一个角度理解,就是不适合新人
2018-01-18 13:07:08
220
原创 Hive分区分桶基本操作
重置HIVE登录mysql[root@m ~]# mysql -uroot -p1->MySQLdrop database hive;create database hive;--修改数据库编码alter database grant all on hive.* to hive@'%' identified by '1';grant all on hive.* t
2018-01-15 13:23:32
328
原创 项目-Hive操作
第一个文件mydate.sql,设置文件使用的变量值#!/bin/bash#注意:mycollection.sql放的是存放SQL代码的文件名hive -hiveconf mydate="$(date +%Y%m%d)" -f mycollection.sql第二个文件mycollection.sql,存放SQL代码create table if not exists kp
2018-01-14 17:31:45
344
原创 大数据第一阶段练习项目说明
1 MR(MapReduce)解析流量日志日志格式: ip地址 - - 当前时间(DD/M/YY:HH:MM:SS +UTC) “GET /访问地址URL 请求协议” 访问状态 流量 解析结果: ip地址\t当前时间(YYYYMMDDHHMMSS,适合中国人的格式)\t网址\t访问状态\t流量特殊说明->解析URL:URL格式:GET /URL 请求协议特殊URL格式:GE
2018-01-13 11:09:25
510
原创 Hive Partition
重置HIVE登录mysql[root@m ~]# mysql -uroot -p1->MySQLdrop database hive;create database hive;--修改数据库编码alter database grant all on hive.* to hive@'%' identified by '1';grant all on hive.* to hi
2018-01-09 16:49:02
335
原创 Hadoop伪集群配置,测试
注意:为免测试出现特殊状况,请严格按照样板参数进行配置,了解参数配置原则的可以自行修改 注意:为免测试出现特殊状况,请严格按照样板参数进行配置,了解参数配置原则的可以自行修改 注意:为免测试出现特殊状况,请严格按照样板参数进行配置,了解参数配置原则的可以自行修改环境及软件说明: windows7 64位 xshell5 vmware12 centOS7 jdk1.8.0_152.
2018-01-03 16:14:44
291
原创 大数据概述
什么是大数据 通过分布式存储技术存储海量数据,然后运用分布式运算框架并分析挖掘出有价值的信息.核心概念:海量数据存储–通过分布式技术,整合众多PC机的存储,从而实现一个大的存储系统.例如:海量的订单信息,天气信息,个人信息……大数据计算–通过分布式技术,整合众多PC机的CPU,实现一个大的运算系统.例如:产品推荐,气象计算,行为统计……相关概念:高可用(HA):备份及高可靠性.数据同步:保
2017-12-25 14:15:28
635
原创 Oracle SQL 事务及触发器
事务 一个事务的生命周期包含三个部分: 1. 事务开始 2. 事务执行 3. 事务结束Oracle不会显式声明事务开始,而是由Oracle自行处理commit rollback set point rollback to point事务的属性和隔离级别read only 只读 read write 读写 serializable 隔离级别 隔离级别的事务是
2017-12-18 10:52:54
529
原创 学习历程->Oracle流程控制及存储过程
流程控制条件语句 if else-- 声明一个变量ideclare i number;-- begin 开始存储过程beginselect count(*) into i from DVD_USER;if i>0 and i5 thendbms_output.put_line('0);ELSIF i>=5 THEN dbms_output.put_line
2017-12-07 13:44:45
388
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人