hadoop
文章平均质量分 81
a1117111a
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Spark 调优
Spark 调优因为大部分Spark程序都具有“内存计算”的天性,所以集群中的所有资源:CPU、网络带宽或者是内存都有可能成为Spark程序的瓶颈。通常情况下,如果数据完全加载到内存那么网络带宽就会成为瓶颈,但是你仍然需要对程序进行优化,例如采用序列化的方式保存RDD数据(Resilient Distributed Datasets),以便减少内存使用。该文章主要包含两个议题:数据序列化和转载 2015-07-27 14:56:12 · 291 阅读 · 0 评论 -
大数据性能调优之HBase的RowKey设计
1 概述HBase是一个分布式的、面向列的数据库,它和一般关系型数据库的最大区别是:HBase很适合于存储非结构化的数据,还有就是它基于列的而不是基于行的模式。既然HBase是采用KeyValue的列存储,那Rowkey就是KeyValue的Key了,表示唯一一行。Rowkey也是一段二进制码流,最大长度为64KB,内容可以由使用的用户自定义。数据加载时,一般也是根据Rowke转载 2015-08-26 17:34:06 · 327 阅读 · 0 评论 -
HBase 常用Shell命令
两个月前使用过hbase,现在最基本的命令都淡忘了,留一个备查~进入hbase shell console$HBASE_HOME/bin/hbase shell如果有kerberos认证,需要事先使用相应的keytab进行一下认证(使用kinit命令),认证成功之后再使用hbase shell进入可以使用whoami命令可查看当前用户hb转载 2015-08-27 15:33:26 · 375 阅读 · 0 评论 -
core-site.xml配置
记录一下Hadoop的配置和说明,用到新的配置项会补充进来,不定期更新。以配置文件名划分以hadoop 1.x配置为例core-site.xml namevalue Description fs.default.namehdfs://hadoopmaster:9000定义HadoopMaster的URI和端口 fs转载 2015-07-23 14:44:13 · 651 阅读 · 0 评论 -
mapred-site.xml
续上篇namevalueDescriptionhadoop.job.history.locationjob历史文件保存路径,无可配置参数,也不用写在配置文件里,默认在logs的history文件夹下。hadoop.job.history.user.location用户历史文件存放位置转载 2015-07-23 14:46:28 · 469 阅读 · 0 评论 -
hdfs-site.xml
续上篇整理一下hdfs相关的配置项 name valueDescription dfs.default.chunk.view.size32768namenode的http访问页面中针对每个文件的内容显示大小,通常无需设置。dfs.datanode.du.reserved1073741824每块磁盘所保留转载 2015-07-23 14:45:28 · 495 阅读 · 0 评论 -
公司集群配置方式Hadoop 2.0.0-cdh4.5.0 (hadoop-env.sh)
# Copyright 2011 The Apache Software Foundation# # Licensed to the Apache Software Foundation (ASF) under one# or more contributor license agreements. See the NOTICE file# distributed with th原创 2015-07-23 15:31:36 · 538 阅读 · 0 评论 -
HBase compact 总结 及 调优配置
1 Compaction介绍 在HBase中,每当memstore的数据flush到磁盘后,就形成一个storefile,当storefile的数量越来越大时,会严重影响HBase的读性能 ,所以必须将过多的storefile文件进行合并操作。Compaction是Buffer-flush-merge的LSM-Tree模型的关键操作,主要起到如下几个作用:(1)合并转载 2015-08-06 15:56:51 · 898 阅读 · 0 评论 -
实时Hadoop实战篇:基于Storm实时路况分析和实时路径推荐系统
本文介绍的项目,我们基于storm开发了深圳市实时交通路况系统,源码已经在github上开源:https://github.com/whughchen/RealTimeTraffichttps://github.com/whughchen/realODMatrix欢迎关注 并 fork 加以改进~----- Hadoop分布式计算系统以其强大的计转载 2015-08-07 14:26:12 · 987 阅读 · 1 评论
分享