hadoop
文章平均质量分 62
光圈1001
从事于金融反欺诈系统大数据研发工作
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
大数据Hadoop之HDFS文件系统总结
总结: 1.hdfs防止文件丢失,设计的解决办法是在不同服务器上再创建一个相同的副本进行存储 2.用户在上传文件的时候,是直接与服务器的DataNode进行连接,不需要通过NameNode,因此用户不会与NameNode产生连接 3.用户在上传文件的时候,只需要上传一次,传入到hdfs以后,由系统自己去DataNode拿数据,进行副本的一个备份存储Hdfs文件系统的特性: 高容错:...原创 2018-07-27 20:37:27 · 949 阅读 · 0 评论 -
【转】 Hadoop HDFS本地存储目录结构解析
https://blog.youkuaiyun.com/opensure/article/details/51452058转载 2019-03-26 15:37:51 · 256 阅读 · 0 评论 -
ambari失去心跳同时无法连接其中一台datanode的错误
状况:ssh连接不上 、其他的主机无法ping 通 、也无法ssh登陆 amabri 集群失去心跳ambari的服务停止无法解决检查了hosts正常检查ip地址!!!!!!!!!可能是由于路由器动态分配了一个新的地址电脑的ip的自动分配,要讲自动分配修改为静态ip,再将自己的ip 和子网掩码配置,即可怎么在linux上永久修改IP地址:https://jingyan.baid...原创 2018-11-12 20:27:35 · 980 阅读 · 0 评论 -
重启集群之后,ambari与主机失去心跳无法恢复的解决办法
启动ambari服务表示已经存在:ERROR: ambari-agent already running异常:the server has not received a heartbeat from this host for more than 3 minutes 3分钟之后失去心跳了**=========================stop 启动 和restart 都不行,...原创 2018-11-12 20:22:02 · 4947 阅读 · 2 评论 -
测试flume、kafka 组件遇到的几个问题
1.flume采用netcat的方式测试服务是否正常启动的异常:ERROR org.apache.flume.source.NetcatSource - Unable to bind to socket. Exception follows.java.net.BindException: Address already in use原因:flume中的source设置的端口被占用 换一个...原创 2018-11-08 18:41:01 · 1192 阅读 · 0 评论 -
YARN-Cluster和YARN-Client的区别
理解YARN-Client和YARN-Cluster深层次的区别之前先清楚一个概念:Application Master。在YARN中,每个Application实例都有一个ApplicationMaster进程,它是Application启动的第一个容器。它负责和ResourceManager打交道并请求资源,获取资源之后告诉NodeManager为其启动Container。从深层次的含义讲YA...转载 2018-11-13 10:55:55 · 760 阅读 · 0 评论 -
搭建ambari过程中必需的本地池配置文件repo文件记录
1.ambari.repo#VERSION_NUMBER=2.6.2.2-1[ambari-2.6.2.2]name=ambari Version - ambari-2.6.2.2baseurl=http://master01/ambari/centos7/2.6.2.2-1/gpgcheck=0gpgkey=http://master01/ambari/centos7/2.6.2.2...原创 2018-11-06 14:54:40 · 1526 阅读 · 1 评论 -
ambari集群中spark集群执行jar踩的坑
公司三台测试服务器,测试spark的集群模式是否正常运行遇到的问题:1.spark运行spark任务遇到的,SparkContext did not initialize after waiting for 100000 ms. Please check earlier log output for errors. Failing the application.参考博客:https://...原创 2018-11-06 14:38:40 · 1354 阅读 · 0 评论 -
flume和kafka组件中常用的超长难记的命令示例
1.flume:flume启动配置文件.conf:flume-ng agent --conf conf --conf-file example.conf --name a1 -Dflume.root.logger=INFO,console如果不需要打印日志信息在控制台:flume-ng agent --conf conf --conf-file example.conf --name a1...原创 2018-10-15 23:21:28 · 216 阅读 · 0 评论 -
hadoop原生集群各个组件常用默认端口服务
Hdfs自定义端口:9000Yarn的web访问端口:8088Tomcat端口:8080Hdfsweb默认端口8020Hdfsweb访问端口:50070Hbase的web访问端口:10610Zookeeper默认端口:2181Broker 端口:9092 启动kafka的生产者的端口启动kafka的消费者的端口:zookeeper的2181Flume中netca的端口:4444...原创 2018-10-15 21:57:37 · 1191 阅读 · 0 评论 -
HADOOP常见问题总结
1:Shuffle Error: Exceeded MAX_FAILED_UNIQUE_FETCHES; bailing-outAnswer:程序里面需要打开多个文件,进行剖析,系统一般默认数量是1024,(用ulimit -a可以看到)对于正常运用是够了,但是对于程序来讲,就太少了。修改办法:修改2个文件。/etc/security/limits.confvi /etc/secur...转载 2018-10-14 22:21:57 · 313 阅读 · 0 评论 -
CDH集群启动时的异常错误
在启动CDH集群的时候,两个错误:Inspector did not run successfullyIOException thrown while collecting data from host:没有到主机的路由Inspector did not run successfully:命令:ps -auxlgrep agent 检查agent的启动路径发现agent的启动有一个...原创 2018-09-21 10:40:54 · 6013 阅读 · 2 评论 -
大数据之HBASEN内部详解
hregionmaster: 一台服务器只能个hrs服务==hrs的单元是一台服务器 或者hrs的单元是一个节点 Hregion: 大多数情况下,一个Hregion代表一张表的一部分的数据(当一张表只有一个region的时候,就是代表整个表的数据内容) store:一个region含有多个ms,一个master代表一个列族当中的数据, Store中存储的就是一个一个单元格的数据内容...原创 2018-08-13 23:18:15 · 654 阅读 · 0 评论 -
大数据Haoop之HDFS的SN合并原理
SN合并方式有两种: SN主动通知NN,合并fsimage和edits 当edits文件到达我们设置的大小时,NN与SN通信,进行合并edits.new文件: 1.标记上一次操作是完整结束的 2.在edits与fsimage合并期间,负责记录用户新的操作的指令三个服务节点发生故障的情况: NN:集群无法使用 SN:无法完成合并工作,edits会一直变大,在服务器接受的范围内...原创 2018-07-27 20:48:43 · 431 阅读 · 0 评论 -
大数据Hadoop之HDFS读取过程总结
读取流程原理: 1.HDFS Client与NN通信,获取文件信息: 文件有多少块,分别在哪些DN上 2.业务调用read API 进行读写文件操作 3.HDFS Clien根据NN返回的元数据信息,与DN通信 此处Client采用就近原则读取数据,数据有多块时,不同DN,Client会同时与多个DN通信,获取数据块 4.数据读取完成以后,业务调用close关闭连接,读取结束当...原创 2018-07-27 20:44:42 · 1368 阅读 · 0 评论 -
[转]Spark中Executor内存中管理机制
https://www.jianshu.com/p/87e060d460e5转载 2019-03-26 16:32:14 · 226 阅读 · 0 评论
分享