兰波万-优快云博客

原创大数据hadoop系列：Hive优化

Map阶段的优化作业会通过input的目录产生一个或多个map任务。a) 假设input目录下有1个文件a,大小为780M,那么hadoop会将该文件a分隔成7个块（6个128m的块和1个12m的块），从而产生7个map数b) 假设input目录下有3个文件a,b,c,大小分别为10m，20m，130m，那么hadoop会分隔成4个块（10m,20m,128m,2m）,从而产生4个map数...

2019-09-14 23:14:56 457 1

原创大数据hadoop系列：Hive HQL常用操作

1.hive HQL 的表操作：1.1 创建数据库hive> create database zhanzhy;OKTime taken: 0.073 secondshive> show databases;OKdefaultzhanzhyTime taken: 0.012 seconds, Fetched: 2 row(s)hive> -- 查看数据库详...

2019-09-13 17:57:10 619

原创大数据hadoop系列：Hive的安装与配置

下载地址https://mirrors.tuna.tsinghua.edu.cn/apache/hive/这边已我安装的1.2.2版本为例，可自行选择稳定版本或最新版本解压hive包tar -zxvf apache-hive-1.2.2-bin.tar.gz -C /usr/local/srccd /usr/local/src# 创建软连接ln -s apache-hive-2...

2019-09-13 16:14:11 412

原创大数据hadoop系列：Hive功能和架构概述

引入原因：1.对存在HDFS上的文件或HBase中的表进行查询时，要手工写一堆MapReduce代码2.对于统计任务，只能由懂MapReduce的程序员才能搞定3.耗时耗力，更多精力没有有效的释放出来Hive是什么1.Hive是一个SQL解析引擎，将SQL语句转译成MR Job,然后再在Hadoop平台上运行，达到快速开发的目的。2.Hive中的表是纯逻辑表，就只是表的定义等，即表的...

2019-09-13 15:29:52 1641

原创大数据hadoop系列：python实现MapReduce 词频统计

map代码：map_t.pyimport sysimport rep = re.compile(r'\w+')for line in sys.stdin: ss = line.strip().split(' ') for s in ss: if len(p.findall(s)) < 1: continue s...

2019-09-13 14:05:11 3410 1

MapReduce的执行流程MapReduce执行流程分为map进程和reduce进程两部分，对应上图中左右两部分map部分：1、stdin（input的是标准输入流，传入的是一整块的数据块，hadoop2.x中HDFS block的大小默认128M，hadoop1.x为64M）数据进来的时候会split切分成一条一条记录的形式，经过map函数操作（如wordCount），输出后的数据进入到...

2019-09-11 22:36:29 886

原创大数据概述及电信大数据应用

一：大数据的应用场景马云：IT行业走向DT(Data technology)时代2015 大数据峰会：过去7年我们从互联网创业到互联网产业，很快进入互联网经济，而且正在从IT走向DT时代，也许昨天称为IT领袖峰会，未来要称DT领袖峰会，DT不仅仅是技术提升，而是思想观念的提升。DT和IT时代区别，IT以我为中心，DT以别人为中心，DT要让企业越来越强大，让你员工强大。DT越来越讲...

2019-09-10 23:54:46 4911

原创使用pyspark的方式处理LCS问题

lcs动态规划法二维数组表达使用二维数组C[m,n]C[i,j]记录序列的Xi和Yj的最长子序列长度当i = 0或者j = 0时，空序列是Xi和Yj的最长公共子序列，古C[i,j] = 0创建hive表并导入要lcs的数据create table lcs_data(a string,b string)row format delimited fields terminated ...

2019-08-10 19:40:30 280

原创 HBase基础操作：命名空间、建删改表、增删改查、分区

启动HBase[root@master bin]# ./start-hbase.sh 进入HBase数据库[root@master bin]# hbase shell查看数据库状态hbase(main):001:0> status1 active master, 0 backup masters, 3 servers, 0 dead, 0.6667 average load...

2019-07-30 22:14:19 2133

原创大数据hadoop系列：伪分布式环境搭建

目录配置静态IP清除防火墙规则以及关闭SELinux1.防火墙2.永久关闭SELinux修改hostname、hosts文件、ssh互信准备修改ssh无密码登录复制子节点ssh互信配置静态IP进入到该目录下cd /etc/sysconfig/network-scripts使用vi/vim编辑器查看并编辑网络配置文件(centOS版本不同名称可能不一样)vim ifcfg-ens33...

2019-06-19 20:38:32 385

原创 git bash中文输出方块乱码解决方法

今天用到git使用java命令处理加密问题的时候，发现java命令输出的中文乱码网上找了好多方法都是这样操作$ git config --global core.quotepath false # 显示 status 编码$ git config --global gui.encoding utf-8 # 图形界面编码$ git config --...

2019-06-19 16:40:28 1852 3

原创大数据hadoop系列：CentOS 7.X x64 系统安装（详细）

CentOS 7.6x64 系统安装刚好手上一台新电脑，重新开始记录。从hadoop完全分布模式的搭建到大数据的学习之路，简单通俗易懂，适合无基础的新人参考。所需环境配置系统CentOS 7.6x64软件VMware 141、VMware 14(虚拟机)自行百度下载安装，跟普通软件一样操作安装即可2、CentOS 7.6x64 系统安装1.官网下载地址：https://ww...

2019-06-18 09:30:27 597

qq_26766821的博客