
Hadoop
云原生AI百宝箱
行万里路,此处相逢,共话云原生A之道。偶逗趣事,明月清风,与君同坐。已出版《Kubernetes:云原生与容器编排实战》,将出版《A大模型原理与场景应用》
展开
-
Hadoop : hdfs的核心工作原理
namenode元数据管理要点 什么是元数据?hdfs的目录结构及每一个文件的块信息(块的id,块的副本数量,块的存放位置<datanode>)元数据由谁负责管理?namenodenamenode把元数据记录在哪里?namenode的实时的完整的元数据存储在内存中;namenode还会在磁盘中(dfs.namenode.name.dir)存储内存元...原创 2018-08-22 08:20:40 · 5836 阅读 · 0 评论 -
hive:级联报表查询
级联报表查询假如,有如下数据(文件名:accumulate.dat):A,2015-01,5A,2015-01,15B,2015-01,5A,2015-01,8B,2015-01,25A,2015-01,5C,2015-01,10C,2015-01,20A,2015-02,4A,2015-02,6C,2015-02,30C,2015-02,10B,2015-02,...原创 2018-09-28 12:01:53 · 6342 阅读 · 0 评论 -
hive:用hql来做wordcount
用hql来做wordcount有以下文本文件:hello tom hello jimhello rose hello tomtom love rose rose love jimjim love tom love is whatwhat is love需要用hive做wordcount-- 建表映射create table t_wc(sentence string)...原创 2018-09-28 12:02:07 · 5879 阅读 · 0 评论 -
hive:函数使用
hive函数使用小技巧:测试函数的用法,可以专门准备一个专门的dual表create table dual(x string);insert into table dual values('');其实:直接用常量来测试函数即可select substr("abcdefg",1,3);substr,在数据库中脚标是从1开始;hive的所有函数手册:https:...原创 2018-09-28 12:02:16 · 6455 阅读 · 0 评论 -
hive:条件查询、join关联查询、分组聚合、子查询
hive查询语法提示:在做小数据量查询测试时,可以让hive将mrjob提交给本地运行器运行,可以在hive会话中设置如下参数:hive> set hive.exec.mode.local.auto=true; 基本查询示例select * from t_access;select count(*) from t_access;select max(ip) ...原创 2018-09-25 08:07:49 · 13818 阅读 · 0 评论 -
hive:建库建表、表分区、内部表外部表、数据导入导出
hive建库建表与数据导入建库hive中有一个默认的库:库名: default库目录:hdfs://hdp20-01:9000/user/hive/warehouse 新建库:create database db_order;库建好后,在hdfs中会生成一个库目录:hdfs://hdp20-01:9000/user/hive/warehouse/db_or...原创 2018-09-25 08:07:25 · 7053 阅读 · 0 评论 -
hive:后台启动、和脚本化运行
hive使用方式最基本使用方式启动一个hive交互shellbin/hivehive>设置一些基本参数,让hive使用起来更便捷,比如:让提示符显示当前库:hive>set hive.cli.print.current.db=true;显示查询结果时显示字段名称:hive>set hive.cli.print.header=true;...原创 2018-09-25 08:07:38 · 14580 阅读 · 0 评论 -
Hive:基本架构、将mysql作为元数据库
什么是hivehive基本思想Hive是基于Hadoop的一个数据仓库工具(离线),可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。 为什么使用Hive直接使用hadoop所面临的问题 人员学习成本太高 项目周期要求太短 MapReduce实现复杂查询逻辑开发难度太大 为什么要使用Hive 操作接口采用...原创 2018-09-21 08:10:01 · 5958 阅读 · 0 评论 -
数据采集:Flume和Logstash的工作原理和应用场景
在某个Logstash的场景下,我产生了为什么不能用Flume代替Logstash的疑问,因此查阅了不少材料在这里总结,大部分都是前人的工作经验下,加了一些我自己的思考在里面,希望对大家有帮助。大数据的数据采集工作是大数据技术中非常重要、基础的部分,数据不会平白无故地跑到你的数据平台软件中,你得用什么东西把它从现有的设备(比如服务器,路由器、交换机、防火墙、数据库等)采集过来,再传输到你的...转载 2018-09-14 17:53:17 · 8567 阅读 · 0 评论 -
Zookeeper:运行机制和数据存储机制
zookeeper的基本功能和应用场景 zookeeper的基本功能和应用场景 zookeeper的整体运行机制 zookeeper的整体运行机制 zookeeper的数据存储机制数据存储形式zookeeper中对用户的数据采用kv形式存储 只是zk有点特别,key是以路径的形式表示的那就意味着,各key之间有父子关系,比如/ ...原创 2018-09-21 08:10:52 · 6752 阅读 · 0 评论 -
Zookeeper :Linux下集群搭建
上传安装包(zookeeper-3.4.6.tar.gz)到集群服务器解压修改配置文件进入zookeeper的安装目录的conf目录 cp zoo_sample.cfg zoo.cfgvi zoo.cfg# The number of milliseconds of each ticktickTime=2000initLimit=10syncLimit=5...原创 2018-09-07 11:58:16 · 5641 阅读 · 0 评论 -
mapreduce:安装YARN
mapreduce核心思想:让我们的运算程序并行在多台机器上执行!mapreduce运行平台YARNmapreduce程序应该是在很多机器上并行启动,而且先执行map task,当众多的maptask都处理完自己的数据后,还需要启动众多的reduce task,这个过程如果用用户自己手动调度不太现实,需要一个自动化的调度平台——hadoop中就为运行mapreduce之类的分布式运算程...原创 2018-09-05 18:48:28 · 5616 阅读 · 0 评论 -
Hadoop : hdfs的客户端操作
hdfs的客户端操作hdfs--分布式文件系统功能:帮用户管理文件机制:用户的文件会被切块后存储在多台Datanode服务器中,并且每个文件块都会在整个集群中存储多个副本。副本的数量可以由用户指定;总而言之,hdfs:对用户提供一个统一的目录树。存储用户的文件时:会切成若干文件块分布式地存储到多台Datanode服务器中Datanode软件存储用户的文件块时...原创 2018-08-21 15:34:54 · 7759 阅读 · 0 评论 -
Hadoop : 搭建hdfs分布式集群
什么是大数据 基本概念 在互联网技术发展到现今阶段,大量日常、工作等事务产生的数据都已经信息化,人类产生的数据量相比以前有了爆炸式的增长,以前的传统的数据处理技术已经无法胜任,需求催生技术,一套用来处理海量数据的软件工具应运而生,这就是大数据!处理海量数据的核心技术:海量数据存储:分布式 海量数据运算:分布式这些核心技术的实现是不需要用户从零开始造轮子的存储和运算,...原创 2018-08-21 15:32:05 · 6691 阅读 · 0 评论 -
Hadoop : hdfs的java客户端api基本使用
Maven依赖 <!-- 测试类 --> <dependency> <groupId>junit</groupId> <artifactId>junit</artifactId> <version>4.4</version> &原创 2018-08-22 18:18:45 · 6232 阅读 · 0 评论