
hadoop
Au苗子
这个作者很懒,什么都没留下…
展开
-
Hive三种去重方法,distinct,group by与ROW_Number()窗口函数
一、distinct,group by与ROW_Number()窗口函数使用方法1. Distinct用法:对select 后面所有字段去重,并不能只对一列去重。(1)当distinct应用到多个字段的时候,distinct必须放在开头,其应用的范围是其后面的所有字段,而不只是紧挨着它的一个字段,而且distinct只能放到所有字段的前面(2)distinct对NULL是不进行过滤的,...原创 2020-02-28 21:28:50 · 3118 阅读 · 0 评论 -
hadoop优化
0)HDFS小文件影响(1)影响NameNode的寿命,因为文件元数据存储在NameNode的内存中(2)影响计算引擎的任务数量,比如每个小的文件都会生成一个Map任务1)数据输入小文件处理:(1)合并小文件:对小文件进行归档(Har)、自定义Inputformat将小文件存储成SequenceFile文件。(2)采用ConbinFileInputFormat来作为输入,解决输...原创 2020-02-27 17:25:31 · 169 阅读 · 0 评论 -
hadoop生态之---sqoop导入数据导致精度丢失
精度丢失问题异常信息WARN hive.TableDefWriter: Column your_column had to be cast to a less precise type in Hive1描述:使用Sqoop,从MySQL往Hive中import数据的时候出现该异常。MySQL表中,对应的列的类型为decimal(10,2)。Sqoop会把它转为Hive的double...原创 2020-02-26 22:02:57 · 944 阅读 · 0 评论 -
hadoop HA 实现原理
在hadoop 1.x版本中,是没有ha的实现方式的,它只有可以看做是冷备份的Secondary NameNode来起到冷备份的作用的,当NameNode挂掉的时候,我们需要手工启动Secondary NameNode。那么为什么Secondary NameNode能够这样做,是因为SNN能够帮助NN做一些检查点的工作,会同步编辑日志和镜像文件,所以可以起到冷备的作用。在1.x版本中,当...原创 2020-02-25 23:44:17 · 200 阅读 · 0 评论 -
SecondaryNameNode工作原理
一、SecondaryNameNode用途 SNN是用来保存namenode中对HDFS metadata的信息的备份,并减少namenode重启的时间,SNN进程默认运行在 namenode 机器上,如果这台机器出错,宕机,对恢复HDFS文件系统是很大的灾难,因此最佳方式是将SNN进程配置在另外一台机器上运行。 在hadoop中,namenode负责对HDFS的metadata的持久...原创 2020-02-25 23:43:17 · 3052 阅读 · 0 评论