Hadoop
文章平均质量分 85
Hadoop起源于Apache Nutch项目,始于2002年,是Apache Lucene的子项目之一 。2004年,Google在“操作系统设计与实现”(Operating System Design and Implementation,OSDI)会议上公开发表了题为MapReduce。
肥叔菌
本博客主要用于记录学习过程中的笔记,每隔一段时间,博主将会将精华内容整合发到知乎、简书上。欢迎关注博主肥叔菌在其他平台上的账号,谢谢。
B站:https://space.bilibili.com/456254145
segmentfault:https://segmentfault.com/u/feishujun/articles
简书:https://www.jianshu.com/u/67bab078551a
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Apache DolphinScheduler 安装部署
Apache DolphinScheduler是一个分布式去中心化,易扩展的可视化DAG工作流任务调度平台。致力于解决数据处理流程中错综复杂的依赖关系,使调度系统在数据处理流程中开箱即用架构。原创 2023-03-21 00:00:00 · 834 阅读 · 0 评论 -
PostgreSQL数据库FDW——读取parquet文件用例
读取数据到column_data中:read_column同样也是使用arrow::ChunkedArray存储获取的列数据,通过allocator为每列根据数据类型分配存储空间,拷贝arrow::ChunkedArray中的列数据到新分配的存储空间中。最终将数据空间设置到this->column_data[col]中。其代码和Apache Arrow User Guide —— Reading and writing Parquet files官方历程提供的读取parquet文件的代码一致。原创 2023-01-13 16:10:08 · 1070 阅读 · 0 评论 -
Apache Arrow User Guide —— Reading and writing Parquet files
这种类型安全的方法还可以确保在不省略字段的情况下写入行,并允许自动(在一定数量的数据之后)或使用EndRowGroup流修饰符显式地创建新的行组。The Parquet arrow::FileReader requires a ::arrow::io::RandomAccessFile instance representing the input file. Parquet arrow::FileReader需要一个表示输入文件的::arrow::io::RandomAccessFile实例。翻译 2023-01-13 20:15:39 · 1329 阅读 · 0 评论 -
Apache Arrow User Guide——使用Apache Arrow读写HDFS中的parquet文件
这几个库目前用不到,但是CMakeLists.txt里面会用到一个libhdfs.so。完事以后就可以用Apache Arrow来读写HDFS的parquet文件了。代码如下,CMakeLists.txt。注意到这里比读写本地parquet文件多了一个hdfs库,位于/opt/hadoop-2.10.1/lib/native目录,就是本地HDFS安装的目录,否则会出现找不到链接库文件错误。安装一下HADOOP并配置一下LD_LIBRARY_PATH。原创 2023-01-13 20:26:34 · 1082 阅读 · 0 评论 -
HAWQ技术解析(五) —— 连接管理
服务器启动后,还要经过一系列配置,才能被客户端程序所连接。本篇说明如何配置客户端身份认证,HAWQ的权限管理机制,HAWQ最常用的命令行客户端工具psql及与mysql命令行常用命令类比,最后还将列举一些客户端连接HAWQ数据库的常见问题排查。一、配置客户端身份认证上一篇曾经提到,HAWQ系统初始安装后,数据库包含一个预定义的超级用户。这个用户和安装HAWQ的操作系统用户用户具有相同的名字,叫做gpadmin。缺省时,系统只允许使用gpadmin用户从本地连接至数据库。为了允许任何其它用户从本地或远程主原创 2021-01-21 23:05:16 · 2939 阅读 · 0 评论 -
HAWQ技术解析(十八) —— 问题排查
(原文地址:http://hawq.incubator.apache.org/docs/userguide/2.1.0.0-incubating/troubleshooting/Troubleshooting.html)本章描写叙述怎样解决HAWQ系统中常见的错误和问题。一、查询性能问题问题:查询慢。原因:一个查询执行缓慢可能有多个原因。比如,数据分布的位置。虚拟段的数量。查询使用的主机数量等都可能影响查询性能。下面过程描写叙述怎样排查查询性能问题。一个查询不像预期执行的那么快。下面是怎样调查原创 2021-01-21 13:07:16 · 3162 阅读 · 0 评论 -
HAWQ技术解析(四) —— 启动停止
前面已经完成了HAWQ的安装部署,也了解了HAWQ的系统架构与主要组件,下面开始使用它。HAWQ作为Hadoop上的一个服务提供给用户,与其它所有服务一样,最基本的操作就是启动、停止、重启服务。要完成这些操作,需要适当的环境设置。下面就HAWQ管理的一些基础概念、操作环境、启动停止及其推荐的操作进行讨论。一、基础概念如果组织中能够做到系统管理与开发分离,那这部分内容严格说应该是HAWQ系统管理员所关心的。要利用好HAWQ集群,应该有一些Linux/UNIX系统管理、数据库管理系统、DBA和SQL等必备知转载 2021-01-21 12:58:43 · 2810 阅读 · 0 评论 -
HAWQ技术解析(三) —— 基本架构
HAWQ是一个Hadoop原生的SQL查询引擎,它结合了MPP数据库的关键技术和Hadoop的可扩展性。HAWQ在原生的HDFS上读写数据,MPP架构使HAWQ表现出超越其它SQL on Hadoop解决方案的查询性能,Hadoop又为HAWQ提供了传统数据库所不具备的线性扩展能力。一、HAWQ的架构在一个典型的HAWQ部署中,每个slave节点上会安装有一个HAWQ物理段,一个HDFS的DataNode和一个NodeManager。而HAWQ、HDFS和YARN的主机则安装在(与slave)分离的节点原创 2021-01-21 12:43:26 · 2854 阅读 · 0 评论 -
HAWQ技术解析(二) —— 安装部署
一、安装规划1. 选择安装介质HAWQ的安装介质有两种选择,一是下载源码手工编译,二是使用Pivotal公司提供的HDB安装包。源码的下载地址为 http://apache.org/dyn/closer.cgi/incubator/hawq/2.0.0.0-incubating/apache-hawq-src-2.0.0.0-incubating.tar.gz,目前最新版本是2.0.0。源码编译和安装Apache官方文档地址为 https://cwiki.apache.org/confluence/di转载 2021-01-19 23:11:41 · 3233 阅读 · 1 评论 -
HAWQ技术解析(一) —— HAWQ简介
一、SQL on Hadoop过去五年里,许多企业已慢慢开始接受Hadoop生态系统,将它用作其大数据分析堆栈的核心组件。尽管Hadoop生态系统的MapReduce组件是一个强大的典范,但随着时间的推移,MapReduce自身并不是连接存储在Hadoop生态系统中的数据的最简单途径,企业需要一种更简单的方式来连接要查询、分析、甚至要执行深度数据分析的数据,以便发掘存储在Hadoop中的所有数据的真正价值。SQL在帮助各类用户发掘数据的商业价值领域具有很长历史。Hadoop上的SQL支持一开始是Apac转载 2021-01-19 22:33:33 · 3091 阅读 · 0 评论 -
Hadoop+ZooKeeper+HBase集群配置
转载自来源:Linux社区 作者:jpiverson因为需要使用Hadoop环境进行测试,收集安装教程,学习一下通常,集群里的一台机器被指定为 NameNode,另一台不同的机器被指定为JobTracker,这些机器是masters。余下的机器即作为DataNode也作为TaskTracker,这些机器是slaves。先决条件确保在你集群中的每个节点上都安装了所有必需软件:JDK,ssh。ssh 必须安装并且保证 sshd一直运行,并使用无密码链接的形式,以便用Hadoop 脚本管理端Hadoop转载 2020-09-07 13:02:37 · 6948 阅读 · 0 评论 -
读书笔记:Hadoop权威指南 简介
数据来自美国国家气候数据中心(National Climatic Data Center,简称NCDC)。这些数据按行并以ASCII格式存储,其中一行是一条记录。下面显示了一行采样数据,为了给读者了解字段,拆分解释。从1901年到2001年,每一年都有一个目录,每个目录中包含各个气象站该年气象数据的打包文件及说明文件。MapReduce任务过程分为凉饿处理阶段:map阶段和reduce阶段...原创 2020-04-29 21:59:45 · 9092 阅读 · 0 评论
分享