
大数据
张亲亲亲亲钦
一只在学校修行的预备程序猿~
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
大数据学习——yarn
Yarn 是hadoop2.0当中 的资源管理系统,为各类应用程序进行资源管理和调度。 我们可以看出.在hadoop2.0之后,在HDFS和MapReduce之间有了Yarn。就可以进行资源的管理,可以做更多的工作。 Yarn产生背景 mapreduce在批处理任务方面的效果较好,但是也只在批处理任务方面效果好了, 扩展性和可靠性差,JobTracker成为瓶颈,NameNode单点故障造成的。 扩展性差,难以支持mr之外的计算。 资源利用率低 mr的多计算框架数据共享困难,我们希望有实时计算框架(s原创 2020-05-27 16:33:43 · 333 阅读 · 0 评论 -
linux中 awk的使用、linux下的文件格式转换和查看
2020.05.15awk做什么awk的内置函数split()substr()length()gsub()输出函数linux下的文件格式相关windows下的文件拿到Linux下出现乱码linux下的文件编码方式转换 awk做什么 关于awk,还有一篇很详细的解析,我在这里也附上链接 linux awk 一看就懂 awk是一个强大的文本分析工具,awk在其对数据分析并生成报告时,显得尤为强大。简单来说awk就是把文件逐行的读入,以空格为默认分隔符将每行切片,切开的部分再进行各种分析处理。 分割后: $0表示原创 2020-05-15 17:58:08 · 1079 阅读 · 0 评论 -
大数据课程——数据仓库Hive、数据库Hbase
数据仓库数据仓库数据仓库概念数据仓库的体系结构数据库和数据仓库的区别Hive什么是Hive为什么用HiveHive 与传统数据库的对比Hive的外部表和内部表 数据仓库 数据仓库概念 数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合...原创 2020-05-07 14:26:26 · 883 阅读 · 0 评论