
海量数据处理
文章平均质量分 86
过往记忆
这个作者很懒,什么都没留下…
展开
-
Presto在字节跳动的内部实践与优化
引言在字节跳动内部,Presto 主要支撑了 Ad-hoc 查询、BI 可视化分析、近实时查询分析等场景,日查询量接近 100 万条。 功能性方面 完全兼容 SparkSQL 语法,可以实现用户从 SparkSQL 到 Presto 的无感迁移; 性能方面 实现 Join Reorder,Runtime Filter 等优化,在 TPCDS1T 数据集上性能相对社区版本提升 80.5%; 稳定性方面 首先,实现了多 Coordinator 架构,解决了 Presto 集转载 2021-12-30 09:35:06 · 897 阅读 · 0 评论 -
Hadoop YARN中web服务的REST API介绍
作者:过往记忆 | 新浪微博:左手牵右手TEL | 可以转载, 但必须以超链接形式标明文章原始出处和作者信息及版权声明博客地址:http://www.iteblog.com/文章标题:《Hadoop YARN中web服务的REST API介绍》本文链接:http://www.iteblog.com/archives/960Hadoop、Hive、Hbase、Flume等QQ交流群:13861535原创 2014-03-13 10:56:57 · 14740 阅读 · 1 评论 -
Apache Hadoop 2.3.0三大重要的提升
作者:过往记忆 | 新浪微博:左手牵右手TEL | 可以转载, 但必须以超链接形式标明文章原始出处和作者信息及版权声明博客地址:http://www.iteblog.com/文章标题:《Hive几种数据导入方式》本文链接:http://www.iteblog.com/archives/949Hadoop、Hive、Hbase、Flume等QQ交流群:138615359 hadoop更新实在是太快原创 2014-03-05 10:04:26 · 9378 阅读 · 0 评论 -
Flume-0.9.4和Hbase-0.96整合(2)
作者:过往记忆 | 新浪微博:左手牵右手TEL | 可以转载, 但必须以超链接形式标明文章原始出处和作者信息及版权声明博客地址:http://www.iteblog.com/文章标题:《Flume-0.9.4和Hbase-0.96整合(2)》本文链接:http://www.iteblog.com/archives/916Hadoop、Hive、Hbase、Flume等QQ交流群:138615359原创 2014-02-14 10:33:51 · 7932 阅读 · 0 评论 -
Flume-0.9.4和Hbase-0.96整合(1)
作者:过往记忆 | 新浪微博:左手牵右手TEL | 可以转载, 但必须以超链接形式标明文章原始出处和作者信息及版权声明博客地址:http://www.iteblog.com/文章标题:《Flume-0.9.4和Hbase-0.96整合(1)》本文链接:http://www.iteblog.com/archives/915Hadoop、Hive、Hbase、Flume等QQ交流群:138615359原创 2014-02-13 10:07:49 · 7939 阅读 · 0 评论 -
Hive几种数据导入方式
作者:过往记忆 | 新浪微博:左手牵右手TEL | 可以转载, 但必须以超链接形式标明文章原始出处和作者信息及版权声明博客地址:http://www.iteblog.com/文章标题:《Hive几种数据导入方式》本文链接:http://www.iteblog.com/archives/949Hadoop、Hive、Hbase、Flume等QQ交流群:138615359 写在前面的话,学Hive这原创 2014-02-24 10:18:58 · 10913 阅读 · 0 评论 -
Flume-0.9.4配置Hbase sink
在本博客的《Flume-1.4.0和Hbase-0.96.0整合》我们已经学习了如何使用Flume-1.4.0和Hbase-0.96.0进行整合。我们可以很容易的配置Hbase sink,并和最新版的Hbase整合,但是由于项目的特殊情况,我需要将Flume-0.9.4和Hbase-0.96整合,搞过这个的人应该知道,Flume-0.9.4和Hbase-0.96非常棘手,各种版本的不兼容等情况,最原创 2014-01-26 10:28:43 · 8838 阅读 · 0 评论 -
Hive日志调试
写在前面的话,学Hive这么久了,发现目前国内还没有一本完整的介绍Hive的书籍,而且互联网上面的资料很乱,于是我决定写一些关于《Hive的那些事》序列文章,分享给大家。我会在接下来的时间整理有关Hive的资料,如果对Hive的东西感兴趣,请关注本博客。http://www.iteblog.com/archives/tag/hive的那些事 这些天看到很多人在使用Hive的过程遇到这样或那样的错原创 2014-01-15 10:04:05 · 12757 阅读 · 0 评论 -
Hive内置数据类型
写在前面的话,学Hive这么久了,发现目前国内还没有一本完整的介绍Hive的书籍,而且互联网上面的资料很乱,于是我决定写一些关于《Hive的那些事》序列文章,分享给大家。我会在接下来的时间整理有关Hive的资料,如果对Hive的东西感兴趣,请关注本博客。http://www.iteblog.com/archives/tag/hive的那些事 Hive的内置数据类型可以分为两大类:(1)、基础数据原创 2014-01-08 09:51:29 · 11110 阅读 · 0 评论 -
Hive:简单查询不启用Mapreduce job而启用Fetch task
写在前面的话,学Hive这么久了,发现目前国内还没有一本完整的介绍Hive的书籍,而且互联网上面的资料很乱,于是我决定写一些关于《Hive的那些事》序列文章,分享给大家。我会在接下来的时间整理有关Hive的资料,如果对Hive的东西感兴趣,请关注本博客。 如果你想查询某个表的某一列,Hive默认是会启用MapReduce Job来完成这个任务,如下:01020304050607080910111原创 2013-12-19 09:57:47 · 12805 阅读 · 0 评论 -
Hive创建索引
写在前面的话,学Hive这么久了,发现目前国内还没有一本完整的介绍Hive的书籍,而且互联网上面的资料很乱,于是我决定写一些关于《Hive的那些事》序列文章,分享给大家。我会在接下来的时间整理有关Hive的资料,如果对Hive的东西感兴趣,请关注本博客。 Hive的数据分为表数据和元数据,表数据是Hive中表格(table)具有的数据;而元数据是用来存储表的名字,表的列和分区及其属性,表的属性(原创 2013-12-20 09:52:27 · 21307 阅读 · 1 评论 -
Hadoop2.2.0中HDFS的高可用性实现原理
在Hadoop2.0.0之前,NameNode(NN)在HDFS集群中存在单点故障(single point of failure),每一个集群中存在一个NameNode,如果NN所在的机器出现了故障,那么将导致整个集群无法利用,直到NN重启或者在另一台主机上启动NN守护线程。 主要在两方面影响了HDFS的可用性: (1)、在不可预测的情况下,如果NN所在的机器崩溃了,整个集群将无法利用,直到原创 2013-11-14 15:41:18 · 3631 阅读 · 1 评论 -
Hive安装与配置
写在前面的话,学Hive这么久了,发现目前国内还没有一本完整的介绍Hive的书籍,而且互联网上面的资料很乱,于是我决定写一些关于《Hive的那些事》序列文章,分享给大家。我会在接下来的时间整理有关Hive的资料,如果对Hive的东西感兴趣,请关注本博客。 前提条件:安装好相应版本的Hadoop(可以参见《在Fedora上部署Hadoop2.2.0伪分布式平台》)、安装好JDK1.6或以上版本(可原创 2013-12-24 09:50:57 · 9479 阅读 · 1 评论