
BigData
文章平均质量分 82
tinyid
Java/Python
Hadoop/Spark/Presto/Kafka/Druid
numpy/matplotlib/pandas/scipy
展开
-
使用HDFS FileSystem实例时应该注意的问题
概述对于通过编程,使用API来对HDFS进行操作的场景,其中一个需要考虑的问题是如何管理FileSystem实例(确切地说是DistributedFileSystem实例),通过查询文档,发现它是线程安全的但是这里的“线程安全”是指客户端的操作(创建文件夹、删除文件夹、创建文件...),但是FileSystem实例本身在不同线程间共享,却不是“安全”的。如果有两个线程使用同一个FileSystem实例进行操作,那么在线程任务中一定不能调用FileSystem实例的close方法,因为关闭之后,另原创 2021-05-21 11:22:32 · 1884 阅读 · 0 评论 -
Hive应用性能优化
1. 将表分区(Partitioned Table)通过将表划分为相互独立的分区,对应于HDFS上相互独立数据目录,在查询时通过指定分区列上的条件,将读取数据的范围限定在关心的数据上,而不需要读取全表数据,继而提升查询性能;通过CREATE TABLE语句实现。2. 分桶(Bucked Table)所谓分桶就是将表中的内容以某列为基准,对所指定的桶的个数N进行模运算,继而将数据划分成N份,对应于H...原创 2018-07-03 11:42:36 · 474 阅读 · 0 评论 -
Hadoop备忘:Reduce阶段Iterable<VALUEIN> values中的每个值都共享一个对象
/** * Iterate through the values for the current key, reusing the same value * object, which is stored in the context. * @return the series of values associated with the current key. All of原创 2016-03-31 16:11:22 · 3693 阅读 · 1 评论 -
Apache Storm流处理有序性探究
本文假设读者已经对Storm的基础结构有了全面理解,并知道Nimbus与supervisor在集群之中所扮演的角色。之所以要理解Storm集群的并行机制,是为了能够对数据流中数据地处理顺序有一个深入地理解,这样才能更有信心地使用工具。首先是需要了解一些与Storm集群并行机制相关地概念:工作进程(worker process,就是一个JVM进程,通过在supervisor服务器上执原创 2015-09-14 16:44:40 · 6133 阅读 · 1 评论 -
Python3中使用零拷贝技术来提高网络文件传输时的系统吞吐量
首先,推荐一篇好文,这篇文章细致地描述了零拷贝技术的原理,以及其与传统拷贝过程的区别:http://www.linuxjournal.com/article/6345?page=0,0从总体上来简单总结一下零拷贝技术可以通过对比来理解:传统的拷贝过程大致是这样一个过程:1. 通过直接内存访问数据进入操作系统内核的缓存(数据拷贝到内核空间)——CPU将数据拷贝到用户空间—原创 2015-09-01 23:50:12 · 4776 阅读 · 0 评论 -
另一种扩展并加速Hadoop计算能力的计算架构—Presto
Hadoop自身的MapReduce计算框架是非常chua原创 2014-09-25 11:13:41 · 6669 阅读 · 0 评论 -
Elasticsearch的路由(Routing)特性
Elasticsearch的路由机制与其分片机制有着直接的关系。Elasticsearch的路由机制即是通过哈希算法,将具有相同哈希值的文档原创 2014-10-14 16:54:50 · 33821 阅读 · 4 评论 -
一种Elasticsearch数据类型冗余方案
在互联网环境中,我们从不指望用户都是规矩的玩家。原创 2014-08-06 11:31:48 · 8754 阅读 · 4 评论 -
Elasticsearch & Logstash -- 一些经验总结
本文作为一些实践经验的总结,并不保证是最佳实践,原创 2014-08-01 11:27:14 · 25794 阅读 · 6 评论 -
Elasticsearch基础教程
基础概念 Elasticsearch有几个核心概念。从一开始理解这些概念会对整个学习过程有莫大的帮助。 接近实时(NRT) Elasticsearch是一个接近实时的搜索平台。这意味着,从索引一个文档直到这个文档能够被搜索到有一个轻微的延迟(通常是1秒)。 集群(cluster) 一个集群就是由一个翻译 2014-06-23 15:38:36 · 303031 阅读 · 74 评论