
hadoop
Smile to everyday
这个作者很懒,什么都没留下…
展开
-
Hadoop总结【Hadoop框架、HDFS、MapReduce、Yarn理论】
一、Hadoop框架hadoop是什么hadoop是有apache开发研究的分布式系统基础架构hadoop主要解决问题:海量的数据存储和海量数据分析计算问题广义上来说hadoop指的应该是一个hadoop生态圈hadoop的版本Apache、Cloudera、Hortonworks(需要明确自己是用的版本)Apache版本是最原始(最基础的版本),适合入门学习Cloudera版本在大兴互联网企业中用的较多Hortonworks文档较好hadoop的优势高可用性: hadoop底原创 2020-08-09 19:33:55 · 1340 阅读 · 0 评论 -
hive数据排序、和窗口函数
一、hive的四种排序1. Order by 可以指定desc降序 asc升序Order by会对输入做全局排序,因此只有一个Reducer(多个Reducer无法保证全局有序,即使设置了多个Reduce,程序依然会按照一个Reduce进行排序)。Order by全局排序,又一个缺点,就是只有一个Reducer,会导致数据规模较大是,消耗较长的计算时间。案例演示:-- 创建一个分数表create table score(stu_id int,stu_name string,stu_class原创 2020-07-13 00:03:11 · 4798 阅读 · 0 评论 -
hive高级查询、Map Join【配案例演示,有图有真相】
一、hive嵌套查询和CTECTE嵌套查询演示CTE跟以前的mysql中的嵌套查询是一样的效果,把查询结果作为另一个查询的表,再对这张表进行查询,这种属于嵌套查询。相比之下,hive的STE显得更有逻辑。创建两张表,插入数据,演示CTE嵌套查询#创建表abc> create table abc( > userid int, > username string, > salary int, > position string &g原创 2020-07-12 19:41:15 · 2009 阅读 · 1 评论 -
Hive基础知识整理、简单的键分区表导入数据示例
一、Hive介绍1.hive功能介绍hive是基于Hadoop的数据仓库解决方案,他将结构化数据、半结构化数据甚至是非结构化数据映射成为数据库表。hive提供了类似sql的查询语句HQL。他是Apache的顶级项目之一。2.hive与MapReduce的介绍MapReduce的执行效率更快,相比之下,hive要先将查询语句转成MapReduce所以运行速度相对变慢。Hive开放效率更快。3.Hive的优势和特点提供了一个简单的优化模型HQL类SQL语法,简化MR开发支持在不同的原创 2020-07-09 22:55:35 · 1557 阅读 · 0 评论 -
linux配置ntp时间同步,与zookeeper的安装
一、linux配置ntp时间同步(一)确认ntp的安装,保证安装好ntp1、查看ntp是否存在rpm –qa | grep ntp2、如果出现则删除原有的ntp(如果没有出现,此步省略)yum –y remove ntpdate-....3、下载ntpyum –y install ntp(二)配置ntp文件1、修改所有节点的/etc/ntp.confvi /etc/ntp.conf打开之后是这个样子,然后添加两行代码restrict 192.168.6.3 nomodify原创 2020-07-05 19:37:15 · 2214 阅读 · 0 评论 -
大数据概况&Hadoop生态系统的描述
一、大数据介绍1. 什么是大数据大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。身边的大数据:微信、qq、抖音都是大数据。2. 大数据的特征4V特征Volume(大数据量): 90% 的数据是过去两年产生Velocity(速度快): 数据增长速度快,时效性高Variety(多样化): 数据种类和来源多样化结构化数据、半结构化数据、非结构化数据Value(价值密度低): 需挖掘获取数据价值固有特征时效性不可变性3. 大数据分布式计算介绍:大原创 2020-07-02 15:17:01 · 1742 阅读 · 0 评论