hadoop
Smile to everyday
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Hadoop总结【Hadoop框架、HDFS、MapReduce、Yarn理论】
一、Hadoop框架 hadoop是什么 hadoop是有apache开发研究的分布式系统基础架构 hadoop主要解决问题:海量的数据存储和海量数据分析计算问题 广义上来说hadoop指的应该是一个hadoop生态圈 hadoop的版本 Apache、Cloudera、Hortonworks(需要明确自己是用的版本) Apache版本是最原始(最基础的版本),适合入门学习 Cloudera版本在大兴互联网企业中用的较多 Hortonworks文档较好 hadoop的优势 高可用性: hadoop底原创 2020-08-09 19:33:55 · 1384 阅读 · 0 评论 -
hive数据排序、和窗口函数
一、hive的四种排序 1. Order by 可以指定desc降序 asc升序 Order by会对输入做全局排序,因此只有一个Reducer(多个Reducer无法保证全局有序,即使设置了多个Reduce,程序依然会按照一个Reduce进行排序)。Order by全局排序,又一个缺点,就是只有一个Reducer,会导致数据规模较大是,消耗较长的计算时间。 案例演示: -- 创建一个分数表 create table score( stu_id int, stu_name string, stu_class原创 2020-07-13 00:03:11 · 4957 阅读 · 0 评论 -
hive高级查询、Map Join【配案例演示,有图有真相】
一、hive嵌套查询和CTE CTE嵌套查询演示 CTE跟以前的mysql中的嵌套查询是一样的效果,把查询结果作为另一个查询的表,再对这张表进行查询,这种属于嵌套查询。相比之下,hive的STE显得更有逻辑。 创建两张表,插入数据,演示CTE嵌套查询 #创建表abc > create table abc( > userid int, > username string, > salary int, > position string &g原创 2020-07-12 19:41:15 · 2121 阅读 · 1 评论 -
Hive基础知识整理、简单的键分区表导入数据示例
一、Hive介绍 1.hive功能介绍 hive是基于Hadoop的数据仓库解决方案,他将结构化数据、 半结构化数据甚至是非结构化数据映射成为数据库表。 hive提供了类似sql的查询语句HQL。他是Apache的顶级项目之一。 2.hive与MapReduce的介绍 MapReduce的执行效率更快,相比之下,hive要先将查询语句转成MapReduce所以运行速度相对变慢。 Hive开放效率更快。 3.Hive的优势和特点 提供了一个简单的优化模型 HQL类SQL语法,简化MR开发 支持在不同的原创 2020-07-09 22:55:35 · 1588 阅读 · 0 评论 -
linux配置ntp时间同步,与zookeeper的安装
一、linux配置ntp时间同步 (一)确认ntp的安装,保证安装好ntp 1、查看ntp是否存在 rpm –qa | grep ntp 2、如果出现则删除原有的ntp(如果没有出现,此步省略) yum –y remove ntpdate-.... 3、下载ntp yum –y install ntp (二)配置ntp文件 1、修改所有节点的/etc/ntp.conf vi /etc/ntp.conf 打开之后是这个样子,然后添加两行代码 restrict 192.168.6.3 nomodify原创 2020-07-05 19:37:15 · 2263 阅读 · 0 评论 -
大数据概况&Hadoop生态系统的描述
一、大数据介绍 1. 什么是大数据 大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。 身边的大数据:微信、qq、抖音都是大数据。 2. 大数据的特征 4V特征 Volume(大数据量): 90% 的数据是过去两年产生 Velocity(速度快): 数据增长速度快,时效性高 Variety(多样化): 数据种类和来源多样化 结构化数据、半结构化数据、非结构化数据 Value(价值密度低): 需挖掘获取数据价值 固有特征 时效性 不可变性 3. 大数据分布式计算 介绍:大原创 2020-07-02 15:17:01 · 1766 阅读 · 0 评论
分享