
Hadoop
文章平均质量分 83
Peasmaster
这个作者很懒,什么都没留下…
展开
-
HDFS知识点介绍
概要Hadoop 分布式文件系统 (HDFS) 是一种分布式文件系统,旨在在商用硬件上运行。它与现有的分布式文件系统有很多相似之处。但是,与其他分布式文件系统的区别是显着的。HDFS 具有高度容错性,旨在部署在低成本硬件上。HDFS 提供对应用程序数据的高吞吐量访问,适用于具有大量数据集的应用程序。HDFS 放宽了一些 POSIX(可移植操作系统接口)标准的 要求,以启用对文件系统数据的流式访问。HDFS 最初是作为 Apache Nutch (开源Java 实现的搜索引擎)网络搜索引擎项目的基础设施而构原创 2022-01-10 22:40:36 · 1603 阅读 · 0 评论 -
Sqoop介绍
定义Sqoop是一个ETL工具,能够在HDFS与传统关系型数据直接传输数据。可以使用Sqoop将MySQL或Oracle等RDBMS导入Hadoop分布式文件系统HDFS中,在Hadoop中处理数据,然后将数据导回RDMBS。sqoop import$ sqoop help import用法:sqoop import [GENERIC-ARGS] [TOOL-ARGS]常用参数:-- connect <jdbc-uri> 指定JDBC 连接字符串 --connect-ma原创 2021-12-25 14:38:35 · 1637 阅读 · 0 评论 -
Hive 常用建表及语法
创建数据库CREATE (DATABASE|SCHEMA) [IF NOT EXISTS] database_name [COMMENT database_comment] [LOCATION hdfs_path] [WITH DBPROPERTIES (property_name=property_value, ...)];--案例 create database ...原创 2018-05-15 10:08:04 · 577 阅读 · 0 评论 -
Jps 信息显示不全或不可用,无法杀死进程
1、正常情况 找到使用该进程的用户,进入该用户进行查看ps -ef | grep pidsu - 用户名jps2、异常情况 假如进程被停止: jps kill -9 pid发现进程还有残留: ps -ef|grep pid pid信息残留,去/tmp/hsperfdata_[用户名]文件夹删除该pid文件[root@hadoop001 hspe...原创 2018-04-23 15:02:28 · 1701 阅读 · 0 评论 -
Linux编译hadoop-2.8.1-src.tar.gz
环境说明:1、虚拟机为VM102、Linux系统为centos6.53、Hadoop为hadoop-2.8.1-src.tar.gz4、JDK为jdk-8u45-linux-x64.gz5、Maven为apache-maven-3.3.9-bin.zip6、protobuf为protobuf-2.5.0.tar.gz7、findbugs为findbugs-1.3.9.zip原创 2017-12-14 17:22:46 · 1360 阅读 · 0 评论 -
hadoop-2.8.1伪分布式安装
环境说明:1、Linux系统为centos6.52、Hadoop为hadoop-2.8.1.tar.gz3、JDK为jdk-8u45-linux-x64.gz软件包地址Linux:链接:https://pan.baidu.com/s/1c2jinQC 密码:qvb4Hadoop:链接:https://pan.baidu.com/s/1kV3Tn07 密码:7hyvJDK:原创 2017-12-18 17:52:31 · 679 阅读 · 0 评论 -
rundeck调度工具部署安装
常见的调度工具有:①azkaban:https://www.cnblogs.com/smartloli/p/5191155.html②xxl_job:https://www.cnblogs.com/xuxueli/p/5021979.html③Linux自带的corntab④本文介绍rundeck介绍RunDeck 是用 Java/Grails 写的开源工具,帮助用户在数据原创 2017-12-18 21:57:46 · 569 阅读 · 1 评论 -
hadoop-hdfs常用命令
1.jps查看进程情况2.hdfs dfs -ls /xxx查看hdfs文件系统的xxx文件3.hadoop fs -mkdir -p /hadoop001/001创建001文件夹4.hdfs dfs -cat test.log查看test.log5.hadoop fs -put test1.log /hadoop001/001/上传文原创 2017-12-25 21:41:52 · 438 阅读 · 0 评论 -
hadoop常见面试题
NameNode存储内容文件系统的命名空间: a、文件名称;${dfs.name.dir}/current/VERSION b、文件目录结构;/edits c、文件的属性(权限,创建时间、副本数);/fsimage d、文件对应哪些数据块-->数据块对应哪些DataNode节点;/fstime 说明d:不会持久化存储这个映射关系,是通过集群的启动和运行时原创 2017-12-26 21:22:39 · 552 阅读 · 0 评论 -
Hadoop-Yarn介绍
Yarn的架构设计ResourceManager (RM) : 负责对各NM上的资源进行统一管理和调度。 将AM分配空闲的Container运行并监控其运行状态。 对AM申请的资源请求分配相应的空闲Container。 主要由两个组件构成: 调度器和应用程序管理器。调度器 (Scheduler): 调度器根据容量、队列等限制条件(如每个队列分配一定的资源,最多执行一定数量的作原创 2018-01-02 10:33:30 · 565 阅读 · 2 评论