大数据
simplelife12138
Begin and go on, today!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
大数据概述
什么是大数据 通过分布式存储技术存储海量数据,然后运用分布式运算框架并分析挖掘出有价值的信息.核心概念:海量数据存储–通过分布式技术,整合众多PC机的存储,从而实现一个大的存储系统.例如:海量的订单信息,天气信息,个人信息…… 大数据计算–通过分布式技术,整合众多PC机的CPU,实现一个大的运算系统.例如:产品推荐,气象计算,行为统计…… 相关概念:高可用(HA):备份及高可靠性. 数据同步:保原创 2017-12-25 14:15:28 · 664 阅读 · 0 评论 -
大数据第一阶段练习项目说明
1 MR(MapReduce)解析流量日志 日志格式: ip地址 - - 当前时间(DD/M/YY:HH:MM:SS +UTC) “GET /访问地址URL 请求协议” 访问状态 流量 解析结果: ip地址\t当前时间(YYYYMMDDHHMMSS,适合中国人的格式)\t网址\t访问状态\t流量 特殊说明-> 解析URL: URL格式: GET /URL 请求协议 特殊URL格式: GE原创 2018-01-13 11:09:25 · 543 阅读 · 0 评论 -
Hive分区分桶基本操作
重置HIVE 登录mysql [root@m ~]# mysql -uroot -p1 ->MySQL drop database hive; create database hive; --修改数据库编码 alter database grant all on hive.* to hive@'%' identified by '1'; grant all on hive.* t原创 2018-01-15 13:23:32 · 352 阅读 · 0 评论 -
SPARK学习笔记
1. 安装SPARK,不再赘述2. shell操作% spark-shell Scala> val lines = sc.textFile("/root/spark_test")--加载文件关于RDD: 弹性分布式数据集(Resilient Distributed Dataset,简称RDD) RDD是SPARK最核心的概念,他是在集群中跨等多个机器分区存储的一个只读的对象集合.在典型的Spar原创 2018-01-24 09:48:04 · 266 阅读 · 0 评论 -
项目-Hive操作
第一个文件mydate.sql,设置文件使用的变量值 #!/bin/bash #注意:mycollection.sql放的是存放SQL代码的文件名 hive -hiveconf mydate="$(date +%Y%m%d)" -f mycollection.sql 第二个文件mycollection.sql,存放SQL代码 create table if not exists kp原创 2018-01-14 17:31:45 · 365 阅读 · 0 评论 -
Spark笔记(二):算子,cache,checkpoint
算子 算子分类 Transformation算子:不触发提交作业,完成作业中间处理过程 Value数据类型的Transformation算子 输入分区与输出分区一对一型 1 map 2 flatmap 3 mapPartitions 4 glom 输入分区与输出分区多对一型 5 union 6 cartesian 输入分区与输出分区多对多型 7 groupBy 输出分区为输入分原创 2018-01-24 11:34:01 · 856 阅读 · 0 评论 -
Hadoop伪集群配置,测试
注意:为免测试出现特殊状况,请严格按照样板参数进行配置,了解参数配置原则的可以自行修改 注意:为免测试出现特殊状况,请严格按照样板参数进行配置,了解参数配置原则的可以自行修改 注意:为免测试出现特殊状况,请严格按照样板参数进行配置,了解参数配置原则的可以自行修改 环境及软件说明: windows7 64位 xshell5 vmware12 centOS7 jdk1.8.0_152.原创 2018-01-03 16:14:44 · 316 阅读 · 0 评论 -
Hive Partition
重置HIVE 登录mysql [root@m ~]# mysql -uroot -p1 ->MySQL drop database hive; create database hive; --修改数据库编码 alter database grant all on hive.* to hive@'%' identified by '1'; grant all on hive.* to hi原创 2018-01-09 16:49:02 · 369 阅读 · 0 评论
分享