
hadoop
dingleilovewanping
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
flink程序打包上传yarn
原创 2021-07-05 14:56:56 · 377 阅读 · 0 评论 -
一些常用的大数据命令(日常更新)
一些常用的大数据命令(日常更新)note:由于本人经常忘记各种命令(包括一些简单的),所以做一个总结Linux常用命令查找大文件 ls -lh $(find /data -type f -size +100M)查看目录文件占用最大 du -h --max-depth=1或者 du -sh *查看磁盘使用 df -h查找文件 find / -name ‘filename’查找目录 find / -name ‘path’ -type d查找内容 find . | xarg原创 2021-07-05 14:10:13 · 288 阅读 · 0 评论 -
大数据知识点(持续更新中。。。)
hdfshdfs组件Namenode : 存储系统元数据、 namespace、管理datanode、接受datanode状态汇报Datanode: 存储块数据,响应客户端的块的读写,接收namenode的块管理理指令Block: HDFS存储数据的基本单位,默认值是128MB,实际块大小0~128MBRack: 机架,对datanode所在主机的物理标识,标识主机的位置,优化存储和计算为什么HDFS不适合小文件存储?情况Namenode占用Datan原创 2020-10-09 15:49:07 · 299 阅读 · 0 评论 -
logstash 消费数据到kafka异常
报错 :[logstash.outputs.kafka ] Sending batch to Kafka failed. Will retry after a delay. {:batch_size=>1, :failures=>1, :sleep=>0.1}原因: logstash 日志报错生产数据到 kafka 失败解决办法: 查看kafka配置,默认单条消息最大为1M,当单条消息长度超过1M时,就会出现发送到broker失败,从而导致消息在producer的队列中一直累原创 2020-07-18 15:39:32 · 1877 阅读 · 0 评论 -
解决idea本地打包检测到多个版本的Scala库问题 Multiple versions of scala libraries detected
报错如下:解决方法:pom文件note:声明scala.binary.version与scala.version版本一致即可 <properties> <scala.version>2.**</scala.version> <scala.binary.version>2.**</scala.binary.version> </properties> <plugin&g原创 2020-07-07 19:44:01 · 12056 阅读 · 7 评论 -
Flink
Apache Flink概述Flink 是构建在数据流之上的一款有状态的流计算框架,通常被人们称为第三代大数据分析方案第一代大数据处理方案:基于Hadoop的MapReduce 静态批处理 | Storm 实时流计算 ,两套独立的计算引擎,难度大(2014年9月)第二代大数据处理方案:Spark RDD 静态批处理、Spark Streaming(DStream)实时流计算(实时性差...原创 2019-11-10 00:17:55 · 791 阅读 · 0 评论 -
Hadoop学习资料
Hadoop笔记一、概述大数据大数据(big data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产大数据的5V特点(IBM提出):Volume(大量)Velocity(高速)Variety(多样)Value(低价值密度)Veracity(真实性)Had...原创 2019-10-03 18:00:20 · 1108 阅读 · 0 评论