- 博客(13)
- 收藏
- 关注
转载 tail -f、tail -F三者区别
tail -f 等同于--follow=descriptor,根据文件描述符进行追踪,当文件改名或被删除,追踪停止tail -F 等同于--follow=name --retry,根据文件名进行追踪,并保持重试,即该文件被删除或改名后,如果再次创建相同的文件名,会继续追踪tailf等同于tail -f -n 10(貌似tail -f或-F默认也是打印最后...
2019-03-09 14:46:09
364
原创 random的使用技巧
一般来说random是随机数必不可少的方法例子:>>>import random>>>random.random()0.05655136772680869//random取0-1的浮点型数据>>>print random.randint(0,10)3//seed是取到相同的随机数种子,只要seed函数的值一样 随机到的数据...
2019-02-14 23:31:59
263
原创 hive的四种文件存储格式
hive分为四种存储格式: 1.TEXTFILE2.SEQUENCEFILE3.RCFILE4.ORCFILE在其中textfile为默认格式,如果在创建hive表不提及,会默认启动textfile格式,导入数据时会直接把数据文件拷贝到hdfs上不进行处理;与此同时,sequencefile,rcfile,orcfile自己不能直接从本地导入数据,需要将数据转为te...
2019-01-22 14:57:17
8547
转载 spark架构基础---RDD理解及宽依赖和窄依赖
1)RDD概念:Resilient Distributed Datasets 弹性分布式数据集,是一个容错的、并行的数据结构,可以让用户显式地将数据存储到磁盘和内存中,并能控制数据的分区。同时,RDD还提供了一组丰富的操作来操作这些数据。RDD是只读的记录分区的集合,只能通过在其他RDD执行确定的转换操作(transformation操作)而创建。RDD可看作一个spark的对象,它本身存在于内...
2019-01-16 18:48:33
289
原创 spark算子讲解(20_Transformation + 12_Action)
Spark的算子的分类从大方向来说,Spark 算子大致可以分为以下两类: 1)Transformation 变换/转换算子:这种变换并不触发提交作业,完成作业中间过程处理。 Transformation 操作是延迟计算的,也就是说从一个RDD 转换生成另一个 RDD ...
2019-01-16 18:13:58
479
原创 Hadoop搭建
http://hadoop.apache.org/docs/r1.0.4/cn/index.html 里面详细阐述几千节点大集群或几个节点小集群的搭建等重要架构的设计
2019-01-10 08:54:14
250
3
转载 hadoop之datanode节点超时时间设置与HDFS冗余数据块的自动删除
一 Datanode节点超时时间设置datanode进程死亡或者网络故障造成datanode无法与namenode通信,namenode不会立即把该节点判定为死亡,要经过一段时间,这段时间暂称作超时时长。HDFS默认的超时时长为10分钟+30秒。如果定义超时时间为timeout,则超时时长的计算公式为: timeout = 2 * heartbeat.recheck.interv...
2019-01-08 20:22:48
465
原创 关于自搭建hadoop出现slave服务器没出现DataNode节点的解决方法
首先先看正确hadoop下的master,slave服务器节点情况异常情况:slave服务器未出现DataNode节点问题描述:一般是格式化hdfs出现的情况,例如hadoop namenode -format或 hdfs namenode -format 强制性多次初始化数据,导致VERSION里面的nameid,clusterID,blockpoolID变化,导致m...
2019-01-08 20:03:57
5582
原创 【Python小技巧】Python四种数据结构的解析及其调用
数据结构:存储大量数据的容器 此文主要介绍Python四种数据结构分为:列表,字典,元组,集合格式如下:列表:list = [val_1, val_2, val_3, val_4],用中括号表示; 字典:dict = {key_11:val_1,key_2:val_2}, 用大括号表示,并且每个元素是带有冒号的K,V组成的对应关系组; 集合:set = {val_1, val_2...
2018-12-29 19:10:50
391
原创 【python技巧篇】 在MR里面写 reload(sys)的原因
python在安装时,默认的编码是ascii,当程序中出现非ascii编码时,python的处理常常会报错UnicodeDecodeError: 'ascii' codec can't decode byte 0x?? in position 1: ordinal not in range(128)出现这个问题的原因是python没办法处理非ascii编码,需要自己设置python的默认编...
2018-12-28 21:16:17
112
转载 sudo apt-get 和dpkg命令大全
一、APT的使用(Ubuntu Linux软件包管理工具一)apt-cache search # ------(package 搜索包)apt-cache show #------(package 获取包的相关信息,如说明、大小、版本等)sudo apt-get install # ------(package 安装包)sudo apt-get install
2016-08-04 15:38:52
300
原创 ctag使用的方法
欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来,用它写博客,将会带来全新的体验哦:Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl + I 引用 Ctrl
2016-08-04 14:27:29
1035
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人