
hadoop
大胖头leo
这个作者很懒,什么都没留下…
展开
-
hive按日期年月实现动态分区,分桶表创建
注意:分区和分桶都是按字段来组织数据的存放,分区是相同的字段值存放在一个文件中,而分桶是字段哈希值相同的数据存放在一个文件中。目录Hive分区分为静态分区和动态分区概念动态分区的属性:hive动态分区分桶表hive读写模式:目标:按照表中数据创建时间的年月来进行分区Hive分区分为静态分区和动态分区概念静态分区:加载数据到指定分区的值。(按照固定的值进行分区:1,2,3就只分三个区)动态分区:数据未知,根据分区的值来确定需要创建的分区。(当 4 出..原创 2020-07-30 08:32:34 · 9905 阅读 · 0 评论 -
hive 创建table的文件命名
https://stackoverflow.com/questions/8536066/hive-create-table-filename-000000-0原创 2020-07-13 17:50:55 · 440 阅读 · 0 评论 -
Hive文件格式(表stored as 的五种类型)
https://blog.youkuaiyun.com/yangshaojun1992/article/details/85124287原创 2020-07-13 17:44:20 · 1005 阅读 · 0 评论 -
Hadoop 推出安全模式 name node is in safe node
#way_1hadoop dfsadmin -safemode leave#way_2hdfs dfsadmin -safemode leave原创 2020-06-16 14:04:31 · 373 阅读 · 0 评论 -
python操作HDFS
如果想把pandas生成的json,csv导入到hdfs,直接使用hdfs的地址时不行的ps:其实直接使用spark SQL 的to_csv,to_json,就已经完美解决了,这里就是说用pandas来写入使用HDFS packageimport pandas as pdfrom hdfs import InsecureClient首先需要连接到hdfs的WebUR...原创 2019-10-04 23:58:05 · 974 阅读 · 0 评论 -
Spark 程序在Yarn上的内存问题,简单解释
当上传spark程序时,总会有出现以下这个错误Spark-submit报错 Container exited with a non-zero exit code 143还有比如 outOfmemory, memory exceed 等等,一个头两个大。。。。对于只是使用spark程序的人,我实在是没兴趣了解spark 内存管理(我也不干这个。。。)所以只有一个目的,如何...原创 2019-09-13 00:09:21 · 657 阅读 · 0 评论 -
Spark Shell with Yarn - Error: Yarn application has already ended! It might have been killed or unab
Yarn找不到 Spark的jar配置文件,将spark/jar/* 下的所有文件上传到hdfs 上配置spark-defaults.sh添加spark.yarn.jars=hdfs://master:9000/spark_jars/*OK原创 2019-09-12 15:52:28 · 697 阅读 · 0 评论 -
Hadoop3.x,Spark 2.4配置--我遇到的问题汇总
配置Spark 绝对是一个扎心的过程,配置到你怀疑人生, 打算把大多的问题都记录下来,就当作记录遇到的坑Table of ContentsWARN scheduler.TaskSchedulerImpl: Initial job has not accepted any resources; check your cluster UI to ensure that worker...原创 2019-09-07 23:53:03 · 1953 阅读 · 0 评论 -
Hadoop3.x live node 为0或1 所有出现的情况 以及 解决办法
时不时,livenode 就没了。。。。。这里记录了所有出现的情况以及解决方法解决方法五花八门,我把我所有碰到的情况记录一下。网上查到的方法,都解决不了环境: master,data1,data2,两个data nodelivenode 为 0/1:一个data node 都没有, JPS下没有datanode进程, 或者master有datanodessh正...原创 2019-03-14 21:19:27 · 1721 阅读 · 2 评论 -
Hadoop3, datanode 与live node(伪分布=0) 不相等
结论: 其实到最后我也没弄明白原因是什么, 就当作记录以下解决风心路历程吧今天在用HDFS的时候,发现spark-streaming怎么也写入不了HDFS, 检查之后 我就看不明白了。jps检查之后,所有的service都正常启动了,但是local:9870里 live node的数量不对, 改成伪分布式之后live node=0, 但是在resourceManager(local:...原创 2019-03-09 17:35:39 · 472 阅读 · 0 评论 -
Hadoop datanode/namenode无法启动
可以尝试格式化hdfs 但是要注意格式化会清空你在hdfs上的所有内容# 针对 DataNode 没法启动的解决方法./sbin/stop-dfs.sh # 关闭rm -r ./tmp # 删除 tmp 文件,注意这会删除 HDFS 中原有的所有数据./bin/hdfs namenode -format # 重新格式化 NameNode./sbin/start-d...转载 2018-07-30 11:25:44 · 173 阅读 · 0 评论 -
启动 Hadoop 时提示 Could not resolve hostname
如果启动 Hadoop 时遇到输出非常多“ssh: Could not resolve hostname xxx”的异常情况,如下图所示:启动Hadoop时的异常提示这个并不是 ssh 的问题,可通过设置 Hadoop 环境变量来解决。首先按键盘的 ctrl + c 中断启动,然后在 ~/.bashrc 中,增加如下两行内容(设置过程与 JAVA_HOME 变量一样,其中 HADOOP...转载 2018-07-30 11:20:32 · 7876 阅读 · 1 评论 -
Hadoop3 yarn无法启动 (resourceManager/nodeManager)
local:8970 可以正常运行, 但是当启动./sbin/start-yarn.shjpsjps上找不到 resourceManager 和 nodeManger的进程, 查询日志发现以下错误信息 resourceManager报错Error starting ResourceManagerorg.apache.hadoop.yarn.webapp.WebAppExc...原创 2018-07-30 11:11:41 · 9373 阅读 · 8 评论 -
【转】hadoop 3.x 安装问题汇总
一、 伪分布式节点启动报错./start-dfs.sh Starting namenodes on [10.1.4.57]ERROR: Attempting to operate on hdfs namenode as rootERROR: but there is no HDFS_NAMENODE_USER defined. Aborting operation.Startin...转载 2018-07-30 10:53:25 · 1145 阅读 · 2 评论