
大数据
文章平均质量分 71
hadoop,spark、storm、flink
小小哭包
1,在云计算,大数据,物联网,人工智能,领域深耕数十年。
2,这四大领域的科技,逐渐成为我们生活和工作的方方面面。
3,未来,这四大领域也将会大放异彩,这是方向,也是大势所趋,更是风口浪尖,有机遇,也有挑战。
4,我个人非常看好这些领域的前景。本人的工作也是跟这些领域密切相关,一直在这些领域垂直深耕多年。
有需要了解的朋友,或者需要软件项目合作的朋友,或者您有好的点子,欢迎咨询,沟通交流哦,一定提供完美的解决方案,让您满意。
展开
-
数仓中数据清洗的方法
数仓中数据清洗的方法原创 2023-11-25 17:42:10 · 1559 阅读 · 0 评论 -
数据仓库高级面试题
数据仓库高级面试题原创 2023-11-20 12:36:17 · 1265 阅读 · 0 评论 -
详解数据仓库之拉链表(原理、设计以及在Hive中的实现)
详解数据仓库之拉链表(原理、设计以及在Hive中的实现)原创 2023-11-12 15:30:50 · 1822 阅读 · 0 评论 -
基于 Flink CDC 高效构建入湖通道
本文整理自阿里云 Flink 数据通道负责人、Flink CDC 开源社区负责人, Apache Flink PMC Member & Committer 徐榜江(雪尽),在 Streaming Lakehouse Meetup 的分享。内容主要分为四个部分: 1. Flink CDC 核心技术解析 2. 数据入湖入仓的挑战 3. 基于 Flink CDC 的入湖入仓方案 4. Flink CDC + Paimon 最佳实践原创 2023-11-09 09:30:27 · 1051 阅读 · 0 评论 -
sqoop笔记(安装、配置及使用)
sqoop笔记(安装、配置及使用)原创 2023-11-08 09:05:06 · 402 阅读 · 0 评论 -
Storm常见错误及处理方法
Storm常见错误及处理方法原创 2023-11-05 13:05:17 · 427 阅读 · 0 评论 -
storm安装手册及笔记
storm安装手册及笔记原创 2023-11-05 12:58:39 · 516 阅读 · 0 评论 -
hive HQL
hive HQL原创 2023-11-03 10:07:12 · 467 阅读 · 0 评论 -
sqoop同步命令从mysql同步到hive
sqoop同步命令从mysql同步到hive原创 2023-11-03 10:05:02 · 746 阅读 · 0 评论 -
hive的工作机制
hive的工作机制原创 2023-11-02 08:51:06 · 814 阅读 · 0 评论 -
hive的安装配置笔记
hive的安装配置笔记原创 2023-11-02 08:48:59 · 1048 阅读 · 0 评论 -
hdfs笔记
hdfs笔记原创 2023-10-14 07:27:07 · 423 阅读 · 0 评论 -
Hadoop2复安装过程详细步骤
Hadoop2复安装过程详细步骤原创 2023-10-03 09:04:41 · 1098 阅读 · 0 评论 -
hadoop2.4.1伪分布式搭建
hadoop2.4.1伪分布式搭建原创 2023-10-02 08:04:35 · 1463 阅读 · 0 评论 -
hadoop生态现状、介绍、部署
hadoop生态现状、介绍、部署原创 2023-10-01 21:16:58 · 465 阅读 · 0 评论 -
hadoop2.2.0伪分布式搭建
hadoop2.2.0伪分布式搭建原创 2023-09-01 07:44:58 · 619 阅读 · 0 评论 -
hadoop1.2.1伪分布式搭建
hadoop1.2.1伪分布式搭建原创 2023-08-31 01:10:42 · 567 阅读 · 0 评论 -
Hive最全总结,学习与面试,看这一篇就行了!
Hive大数据面试高频经典26问原创 2023-07-17 08:57:22 · 231 阅读 · 0 评论 -
分布式服务框架_Zookeeper--管理分布式环境中的数据
本文介绍的 Zookeeper 是以 3.2.2 这个稳定版本为基础,最新的版本可以通过官网http://hadoop.apache.org/zookeeper/来获取,Zookeeper 的安装非常简单,下面将从单机模式和集群模式两个方面介绍 Zookeeper 的安装和配置。原创 2023-07-04 21:39:14 · 524 阅读 · 0 评论 -
Hadoop Map/Reduce实现细节
分布式计算(Map/Reduce),同样是一个宽泛的概念,在这里,它狭义的指代,按Google Map/Reduce框架所设计的分布式框架。在Hadoop中,分布式文件系统,很大程度上,是为各种分布式计算需求所服务的。我们说分布式文件系统就是加了分布式的文件系统,类似的定义推广到分布式计算上,我们可以将其视为增加了分布式支持的计算函数。原创 2023-06-21 09:50:42 · 824 阅读 · 0 评论 -
Hive HBase 整合
hive hbase整合,要求比较多,1.hive的得是0.6.02.hive本身要求hadoop的最高版本是hadoop-0.20.23.要求hbase的版本是0.20.3,其他版本需要重新编译hive_hbase-handler但是新版的hbase(0.90)变动特别大,根本无法从编译。这点比较恶心,hbase目前升级比较快,当前是0.90(从0.20.6直接跳到0.89),至于为什么这样跳跃,参考官方的解释http://wiki.apache.org/hadoop/Hbase/HBas原创 2023-06-20 09:06:36 · 582 阅读 · 0 评论 -
MapReduce程序基本架构
MapReduce程序是以(键/值)对的形式来处理数据的,即可以通过以下的形式来表示:map: (K1,V1) ➞list(K2,V2) reduce: (K2,list(V2)) ➞list(K3,V3)原创 2023-06-19 09:01:13 · 575 阅读 · 0 评论 -
zookeeper集群的安装
zookeeper集群安装原创 2023-06-18 09:55:03 · 124 阅读 · 0 评论 -
HIVE配置手册
此文使用版本是hive-0.6.0,但是不支持hadoop-0.21.0,所以需要安装hadoop-0.20.2或者以下版本原创 2023-06-14 09:25:50 · 997 阅读 · 0 评论 -
MapReduce基础
MapReduce程序是设计用来并行计算大规模海量数据的,这需要把工作流分划到大量的机器上去,如果组件(component)之间可以任意的共享数据,那这个模型就没法扩展到大规模集群上去了(数百或数千个节点),用来保持节点间数据的同步而产生的通信开销会使得系统在大规模集群上变得不可靠和效率低下。MapReduce程序的第一步叫做mapping,在这一步会有一些数据元素作为Mapper函数的输入数据,每次一个,Mapper会把每次map得到的结果单独的传到一个输出数据元素里。原创 2023-06-12 08:08:44 · 930 阅读 · 0 评论 -
Hadoop Distributed System (HDFS) 写入和读取流程
如 果传输过程中,有某个datanode出现了故障,那么当前的pipeline会被关闭,出现故障的datanode会从当前的pipeline中移除, 剩余的block会继续剩下的datanode中继续以pipeline的形式传输,同时Namenode会分配一个新的datanode,保持 replicas设定的数量。HDFS是为以流的方式存取大文件而设计的。读取完当前block的数据后,关闭与当前的DataNode连接,并为读取下一个block寻找最佳的DataNode;二、HDFS的体系结构。原创 2023-06-10 15:39:30 · 1139 阅读 · 0 评论 -
Hadoop回收站trash
Hadoop回收站trash原创 2023-06-09 08:20:48 · 192 阅读 · 0 评论 -
Hadoop删除节点(Decommissioning Nodes)
Hadoop删除节点(Decommissioning Nodes)原创 2023-06-09 08:14:19 · 506 阅读 · 0 评论 -
Hadoop添加节点datanode
Hadoop添加节点datanode原创 2023-06-08 10:49:05 · 558 阅读 · 0 评论 -
hadoop mapreduce执行流程
我们以wordcount为例,假设有个6400M的文件,100台hadoop机器(准确地说应该是tasktracker机),默认block大小为64M,这样每台执行map的文件刚好是一个64M的block文件(假设这个分发过程已经完成,同时忽略备份数之类的细节),并且我们使用10个reduce任务来归并文件。Hadoop的mapreducer的执行过程如下原创 2023-06-08 10:42:00 · 675 阅读 · 0 评论 -
Hbase安装指南
HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。HBase是Google Bigtable的开源实现,类似Google Bigtable利用GFS作为其文件存储系统,HBase利用Hadoop HDFS作为其文件存储系统;Google运行MapReduce来处理Bigtable中的海量数据,HBase同样利用Hadoop MapReduce来处理HBase中的海量数据;Google Bigtable利用Chub原创 2023-06-07 08:19:03 · 506 阅读 · 0 评论 -
Hbase配置手册
Hbase配置手册原创 2023-06-05 08:29:41 · 957 阅读 · 0 评论 -
Hbase使用已经安装的zookeeper
Hbase使用已经安装的zookeeper原创 2023-06-05 08:18:57 · 267 阅读 · 0 评论 -
HBase与BigTable的差异比较
HBase是Google的BigTable架构的一个开源实现。但是我个人觉得,要做到充分了解下面两点还是有点困难的:一 HBase涵盖了BigTable规范的哪些部分?二 HBase与BigTable仍然有哪些区别?原创 2023-06-04 10:26:18 · 565 阅读 · 0 评论 -
HBase的安装、配置、管理与编程
HBase的安装、配置、管理与编程原创 2023-06-04 10:12:35 · 1154 阅读 · 0 评论 -
hbase简介与安装
HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群原创 2023-06-03 13:16:25 · 393 阅读 · 0 评论 -
Hbase的布署
今天闲来无事,想起前两天关于在hadoop环境上布署Hbase的一些知识,在此分享下原创 2023-06-03 13:00:43 · 264 阅读 · 0 评论 -
Hadoop,ZooKeeper,HBase,hive(HQL)安装步骤
准备安装Hadoop集群之前我们得先检验系统是否安装了如下的必备软件:ssh和Jdk1.6(因为Hadoop需要使用到Jdk中的编译工具,所以一般不直接使用Jre)。可以使用yum install rsync来安装rsync。一般来说ssh是默认安装到系统中的。原创 2023-06-02 09:23:55 · 945 阅读 · 0 评论 -
HBase 在淘宝的应用和优化小结
hbase是从hadoop中分离出来的apache顶级开源项目。由于它很好地用java实现了google的bigtable系统大部分特性,因此在 数据量猛增的今天非常受到欢迎。对于淘宝而言,随着市场规模的扩大,产品与技术的发展,业务数据量越来越大,对海量数据的高效插入和读取变得越来越重要。 由于淘宝拥有也许是国内最大的单一hadoop集群(云梯),因此对hadoop系列的产品有比较深入的了解,也就自然希望使用hbase来做这样一种海 量数据读写服务。本篇文章将对淘宝最近一年来在online应用上使用和优化原创 2023-06-02 08:56:14 · 315 阅读 · 0 评论 -
Hadoop命令大全
本节比较全面的向大家介绍一下Hadoop命令,欢迎大家一起来学习,希望通过本节的介绍大家能够掌握一些常见Hadoop命令的使用方法原创 2023-06-01 08:19:25 · 1502 阅读 · 0 评论