- 博客(12)
- 收藏
- 关注
原创 大数据hadoop系列:Hive优化
Map阶段的优化作业会通过input的目录产生一个或多个map任务。a) 假设input目录下有1个文件a,大小为780M,那么hadoop会将该文件a分隔成7个块(6个128m的块和1个12m的块),从而产生7个map数b) 假设input目录下有3个文件a,b,c,大小分别为10m,20m,130m,那么hadoop会分隔成4个块(10m,20m,128m,2m),从而产生4个map数...
2019-09-14 23:14:56
391
1
原创 大数据hadoop系列:Hive HQL常用操作
1.hive HQL 的表操作:1.1 创建数据库hive> create database zhanzhy;OKTime taken: 0.073 secondshive> show databases;OKdefaultzhanzhyTime taken: 0.012 seconds, Fetched: 2 row(s)hive> -- 查看数据库详...
2019-09-13 17:57:10
561
原创 大数据hadoop系列:Hive的安装与配置
下载地址https://mirrors.tuna.tsinghua.edu.cn/apache/hive/这边已我安装的1.2.2版本为例,可自行选择稳定版本或最新版本解压hive包tar -zxvf apache-hive-1.2.2-bin.tar.gz -C /usr/local/srccd /usr/local/src# 创建软连接ln -s apache-hive-2...
2019-09-13 16:14:11
384
原创 大数据hadoop系列:Hive功能和架构概述
引入原因:1.对存在HDFS上的文件或HBase中的表进行查询时,要手工写一堆MapReduce代码2.对于统计任务,只能由懂MapReduce的程序员才能搞定3.耗时耗力,更多精力没有有效的释放出来Hive是什么1.Hive是一个SQL解析引擎 ,将SQL语句转译成MR Job,然后再在Hadoop平台上运行,达到快速开发的目的。2.Hive中的表是纯逻辑表,就只是表的定义等,即表的...
2019-09-13 15:29:52
1579
原创 大数据hadoop系列:python实现MapReduce 词频统计
map代码:map_t.pyimport sysimport rep = re.compile(r'\w+')for line in sys.stdin: ss = line.strip().split(' ') for s in ss: if len(p.findall(s)) < 1: continue s...
2019-09-13 14:05:11
3293
1
原创 大数据hadoop系列:MapReduce工作原理简述
MapReduce的执行流程MapReduce执行流程分为map进程和reduce进程两部分,对应上图中左右两部分map部分:1、stdin(input的是标准输入流,传入的是一整块的数据块,hadoop2.x中HDFS block的大小默认128M,hadoop1.x为64M)数据进来的时候会split切分成一条一条记录的形式,经过map函数操作(如wordCount),输出后的数据进入到...
2019-09-11 22:36:29
835
原创 大数据概述及电信大数据应用
一:大数据的应用场景马云:IT行业走向DT(Data technology)时代2015 大数据峰会:过去7年我们从互联网创业到互联网产业,很快进入互联网经济,而且正在从IT走向DT时代,也许昨天称为IT领袖峰会,未来要称DT领袖峰会,DT不仅仅 是技术提升,而是思想观念的提升。DT和IT时代区别,IT以我为中心,DT以别人为中心,DT要让企业越来越强大,让你员工强大。DT越来越讲...
2019-09-10 23:54:46
4806
原创 使用pyspark的方式处理LCS问题
lcs动态规划法二维数组表达使用二维数组C[m,n]C[i,j]记录序列的Xi和Yj的最长子序列长度当i = 0或者j = 0时,空序列是Xi和Yj的最长公共子序列,古C[i,j] = 0创建hive表并导入要lcs的数据create table lcs_data(a string,b string)row format delimited fields terminated ...
2019-08-10 19:40:30
249
原创 HBase基础操作:命名空间、建删改表、增删改查、分区
启动HBase[root@master bin]# ./start-hbase.sh 进入HBase数据库[root@master bin]# hbase shell查看数据库状态hbase(main):001:0> status1 active master, 0 backup masters, 3 servers, 0 dead, 0.6667 average load...
2019-07-30 22:14:19
2068
原创 大数据hadoop系列:伪分布式环境搭建
目录配置静态IP清除防火墙规则以及关闭SELinux1.防火墙2.永久关闭SELinux修改hostname、hosts文件、ssh互信准备修改ssh无密码登录复制子节点ssh互信配置静态IP进入到该目录下cd /etc/sysconfig/network-scripts使用vi/vim编辑器查看并编辑网络配置文件(centOS版本不同名称可能不一样)vim ifcfg-ens33...
2019-06-19 20:38:32
338
原创 git bash中文输出方块乱码解决方法
今天用到git使用java命令处理加密问题的时候,发现java命令输出的中文乱码网上找了好多方法都是这样操作$ git config --global core.quotepath false # 显示 status 编码$ git config --global gui.encoding utf-8 # 图形界面编码$ git config --...
2019-06-19 16:40:28
1757
3
原创 大数据hadoop系列:CentOS 7.X x64 系统安装(详细)
CentOS 7.6x64 系统安装刚好手上一台新电脑,重新开始记录。从hadoop完全分布模式的搭建到大数据的学习之路,简单通俗易懂,适合无基础的新人参考。所需环境配置系统CentOS 7.6x64软件VMware 141、VMware 14(虚拟机)自行百度下载安装,跟普通软件一样操作安装即可2、CentOS 7.6x64 系统安装1.官网下载地址:https://ww...
2019-06-18 09:30:27
547
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人