
大数据处理
文章平均质量分 58
记录学习中遇到的问题
HeatDeath
Learn by doing!
展开
-
Hive 中的外部表在数据源移动后,如何进行查询操作?
修改被移动数据源的表的 location 即可hive> alter table injury_info_daily_test_2 set location '/input';OKTime taken: 0.07 seconds原创 2018-01-09 14:16:27 · 929 阅读 · 1 评论 -
HDFS 从客户端写入到 DataNode 时,ACK 是否三个备份都写成功之后再确认成功操作?
ACK 是否三个备份都写成功之后再确认成功操作?不是的,只要成功写入的节点数量达到dfs.replication.min(默认为1),那么就任务是写成功的正常情况下:① 在进行写操作的时候(以默认备份3份为例),DataNode_1接受数据后,首先将数据写入buffer,再将数据写入DatNode_2,写入成功后将 buffer 中的数据写入本地磁盘,并等待ACK信息② 重复上一个原创 2018-01-09 14:13:34 · 2973 阅读 · 1 评论 -
HDFS 中向 DataNode 写入数据失败了怎么办
如果向DataNode写入数据失败了怎么办?如果这种情况发生,那么就会执行一些操作:① Pipeline数据流管道会被关闭,ACK queue中的packets会被添加到data queue的前面以确保不会发生packets数据包的丢失② 在正常的DataNode节点上的以保存好的block的ID版本会升级——这样发生故障的DataNode节点上的block数据会在节点恢复正常后被删除原创 2018-01-09 14:06:47 · 4311 阅读 · 0 评论 -
MapReduce 中 map 和 reduce 数量之间的关系
① Map 的数量通常是由 Hadoop 集群的数据块大小(输入文件的总块数)确定的,正常的 Map 数量的并行规模大致是每一个 Node 是10~100个。② 正常Reduce任务的个数应该是0.95或者1.75*(节点数*CPU数量)。(1)如果任务数是节点个数的0.95倍,那么所有的Reduce任务能够在 Map任务的输出传输结束后同时开始运行。(2)如果任务数是节点个数的1.75倍,那么高速原创 2018-01-09 14:02:02 · 3481 阅读 · 0 评论 -
Hive 分区的简介
hive的partition的作用和使用方法网上有篇关于hive的partition的使用讲解的比较好,转载了:一、背景1、在Hive Select查询中一般会扫描整个表内容,会消耗很多时间做没必要的工作。有时候只需要扫描表中关心的一部分数据,因此建表时引入了partition概念。2、分区表指的是在创建表时指定的partition的分区空间。3、如果需要创建有分区的表,需要在create表的时候转载 2018-01-09 10:58:59 · 510 阅读 · 0 评论 -
向 Hive 表中加载数据,从 Hive 表中导出数据
1 建表时候直接指定如果你的数据已经在HDFS上存在,已经为结构化数据,并且数据所在的HDFS路径不需要维护,那么可以直接在建表的时候使用location指定数据所在的HDFS路径即可。CREATE [EXTERNAL] TABLE t_lxw1234 (day STRING,url STRING)ROW FORMAT DELIMITED FIELDS TERMINATED B原创 2018-01-08 17:22:38 · 1384 阅读 · 0 评论 -
Hadoop 的 NameNode 节点的备份机制与恢复方法
NameNode 出现问题了如何恢复?NameNode的守护进程可以通过人工的方式从SecondaryNameNode上拷贝一份fsimage来恢复数据1、hadoop主节点(NameNode)备份策略以及恢复方法 http://blog.youkuaiyun.com/lxpbs8851/article/details/99158892、 转发namenode恢复过程 http://f.d原创 2018-01-09 09:43:23 · 3972 阅读 · 0 评论 -
Hive 中的表与外部表
相信很多用户都用过关系型数据库,我们可以在关系型数据库里面创建表(create table),这里要讨论的表和关系型数据库中的表在概念上很类似。我们可以用下面的语句在Hive里面创建一个表:hive> create table wyp(id int, > name string, > age int, > tele string) > ROW FORMAT原创 2018-01-06 17:51:02 · 427 阅读 · 0 评论 -
Hadoop 下 WordCount 程序运行方法及过程分析
1 WordCount 程序运行方法现在有四个小的文本文本内容分别是把这四个文件所在的文件夹 input 放在 HDFS 中运行 Hadoop 自带的 WordCount 程序hadoop jar /usr/local/etc/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar grep /input /output '[a-z原创 2018-01-06 14:15:41 · 561 阅读 · 0 评论 -
啥叫 ETL,ETL 到底是啥玩意
ETL 是构建数据仓库的重要一环,用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。—ETL讲解(很详细!!!) ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。 ETL是BI项目重要的一个环节。 通常情况下,在B转载 2018-01-06 13:48:38 · 2268 阅读 · 0 评论 -
流式数据、批式数据、实时数据、历史数据的区别
大数据处理系统可分为批式(batch)大数据和流式(streaming)大数据两类。其中,批式大数据又被称为历史大数据,流式大数据又被称为实时大数据。复杂的批量数据处理(batch data processing),通常的时间跨度在数十分钟到数小时之间。基于历史数据的交互式查询(interactive query),通常的时间跨度在数十秒到数分钟之间。基于实时数据流的数据处理(streaming d原创 2018-01-05 23:27:06 · 31984 阅读 · 1 评论 -
简单解释 MapReduce 的原理与设计思想
MapReduce原理与设计思想一个有趣的例子你想数出一摞牌中有多少张黑桃。直观方式是一张一张检查并且数出有多少张是黑桃?MapReduce方法则是:给在座的所有玩家中分配这摞牌让每个玩家数自己手中的牌有几张是黑桃,然后把这个数目汇报给你你把所有玩家告诉你的数字加起来,得到最后的结论拆分MapReduce合并了两种经典函数:映射(Mapping)对集合里的每个目标应用同一个操作。即,如果你想转载 2018-01-05 23:46:58 · 1674 阅读 · 0 评论 -
SecondaryNameNode 究竟有什么作用?
Secondary NameNode:它究竟有什么作用? 前言最近刚接触Hadoop, 一直没有弄明白NameNode和Secondary NameNode的区别和关系。很多人都认为,Secondary NameNode是NameNode的备份,是为了防止NameNode的单点失败的,直到读了这篇文章Secondary Namenode - What it really do? (需翻墙)才发现转载 2018-01-05 16:21:53 · 519 阅读 · 0 评论 -
FS Shell 基础
1 FS Shell调用文件系统 (FS)Shell 命令应使用 bin/hadoop fs <args>的形式。 所有的的 FS shell 命令使用 URI路径作为参数。URI 格式是 scheme://authority/path对HDFS文件系统,scheme 是 hdfs,对本地文件系统,scheme 是 file。其中 scheme 和 authority 参数都是可选的,如果未加指定,原创 2017-12-28 23:04:27 · 1209 阅读 · 0 评论 -
Hive 基础
1 hive 常用命令假设有数据库 fm_data,里面有表格 shield_fm_feature_item_ctrshow databases; //列出数据库desc database fm_data; // 展示数据库 fm_data 的信息use fm_data; // 使用某个数据库 fm_data\set hive.cli.print.current.db=true; 显示列头set原创 2017-12-28 23:00:10 · 591 阅读 · 0 评论 -
Hive 与 HDFS 之间的联系、Hive 与 关系型数据库的区别
1 Hive 与 HDFS 之间的联系(1)hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的 sql 查询功能,可以将 sql 语句转换为 MapReduce 任务进行运行。其优点是学习成本低,可以通过类 SQL 语句快速实现简单的 MapReduce 统计,不必开发专门的 MapReduce 应用,十分适合数据仓库的统计分析。(2)Hive原创 2017-12-28 22:53:27 · 29198 阅读 · 0 评论 -
Hive 显示分区,根据分区进行查询的方法
hive> show partitions table_name;原创 2017-12-27 23:41:06 · 51377 阅读 · 1 评论 -
Hive SQL 基础语法(1)
1 substr , substring字符串截取函数:substr,substring语法: substr(string A, int start, int len),substring(string A, int start, int len) 返回值: string 说明:返回字符串 A 从 start 位置开始,长度为 len 的字符串 举例: hive> select substr原创 2017-12-26 16:47:24 · 3326 阅读 · 0 评论 -
在 CentOS 6.7 环境下安装 Hive 的方法
Hadoop 的安装过程不再赘述具体方法见之前的文章在 CentOS 7.2 下安装 Hadoop 2.7.5 并搭建伪分布式环境的方法 http://blog.youkuaiyun.com/heatdeath/article/details/788670931 安装 MySQL在安装之前,需要先安装MySql,Hive默认使用内嵌的DerBy作为元数据库,但是鉴于其单会话限制,这里使用Mysql作为元数据库原创 2017-12-25 16:22:17 · 1149 阅读 · 1 评论 -
Hadoop 搭建中遇到的问题 —— local host is: "localhost/127.0.0.1"; destination host is: "localhost":9000
ls: Failed on local exception: java.io.IOException: Connection reset by peer; Host Details : local host is: "localhost/127.0.0.1"; destination host is: "localhost":9000; 由于 CentOS 7.2 的镜像有坑,无法使用 servic原创 2017-12-25 14:51:00 · 14509 阅读 · 0 评论 -
Hadoop 配置过程中的错误 Error: Cannot find configuration directory: /etc/hadoop
配置好 hadoop 后,执行启动./start-all.sh,报错:Error: Cannot find configuration directory: /etc/hadoopstarting yarn daemonsError: Cannot find configuration directory: /etc/hadoop这是因为使用了 hadoop-env.sh 默认的关于 hadoo原创 2017-12-21 19:52:30 · 8679 阅读 · 5 评论 -
在 CentOS 7.2 下安装 Hadoop 2.7.5 并搭建伪分布式环境的方法
资源下载1、JDK 下载 http://www.oracle.com/technetwork/java/javase/downloads/index.html2、Hadoop 下载 http://hadoop.apache.org/releases.html一、创建 Hadoop 用户创建 hadoop 用户,并分配以用户名为家目录 / home/hadoop,并将其加入到 sudo 用户组,创原创 2017-12-21 19:48:35 · 6371 阅读 · 2 评论 -
HDFS 常用文件操作命令
ls使用方法:hadoop fs -ls <args>如果是文件,则按照如下格式返回文件信息: 文件名 <副本数> 文件大小 修改日期 修改时间 权限 用户 ID 组 ID 如果是目录,则返回它直接子文件的一个列表,就像在 Unix 中一样。目录返回列表的信息如下:目录名 <dir> 修改日期 修改时间 权限 用户 ID 组 ID示例:hadoop fs -ls /user/hadoop/file原创 2017-12-21 17:20:18 · 3254 阅读 · 0 评论 -
WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-
异常信息如下:WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable解决办法1 进入 hadoop 安装目录2 用 ldd 命令查看依赖库3 现在检查系统的 glibc 库, ldd –versi原创 2017-12-21 16:29:19 · 1728 阅读 · 0 评论