
Pentaho Work with Big Data
文章平均质量分 92
用实例说明Pentaho Kettle 产品对大数据的支持,包括从Hadoop集群导入导出数据、Hive数据转换、MapReduce聚合、执行Spark作业、Kettle集群等。
wzy0623
30年专职DBA工作;OCP Oracle 8i DBA、MySQL 5 DBA、信息系统项目管理师;《Hadoop构建数据仓库实践》、《HAWQ数据仓库与数据挖掘实战》、《SQL机器学习库——MADlib技术解析》、《MySQL高可用实践》、《Kettle构建Hadoop ETL》、《Greenplum构建实时数据仓库实践》作者。
展开
-
kettle 5.1.0 连接 Hadoop hive 2 (hive 1.2.1)
kettle 5.1.0 连接 Hadoop hive 2 (hive 1.2.1)原创 2016-03-16 10:53:55 · 14108 阅读 · 0 评论 -
Kettle 之获取文件名
Kettle 之获取文件名原创 2016-12-26 11:07:01 · 21295 阅读 · 0 评论 -
Kettle 加快数据入库速度
Kettle 加快数据入库速度原创 2023-08-16 12:22:46 · 907 阅读 · 0 评论 -
Kettle 构建 Hadoop ETL 实践(十):并行、集群与分区
数据分发方式与多线程、Carte 子服务器、集群转换、数据库分区原创 2020-12-04 18:04:36 · 9102 阅读 · 8 评论 -
Kettle 构建 Hadoop ETL 实践(九):事实表技术
事实表概述、周期快照、累计快照、无事实的事实表、迟到的事实、累积度量原创 2020-11-25 16:20:30 · 5925 阅读 · 7 评论 -
Kettle 构建 Hadoop ETL 实践(八-2):维度表技术
递归、退化维度、杂项维度、维度合并、分段维度原创 2020-11-09 11:39:08 · 1810 阅读 · 0 评论 -
Kettle 构建 Hadoop ETL 实践(八-1):维度表技术
增加列、维度子集、角色扮演维度、层次维度原创 2020-11-09 10:58:46 · 7917 阅读 · 0 评论 -
Kettle 构建 Hadoop ETL 实践(七):定期自动执行 ETL 作业
使用 crontab、使用 Oozie、使用 start 作业项原创 2020-10-16 18:59:50 · 3692 阅读 · 3 评论 -
Kettle 构建 Hadoop ETL 实践(六):数据转换与装载
数据清洗、Hive 简介、初始装载、定期装载原创 2020-10-13 16:44:25 · 30262 阅读 · 1 评论 -
Kettle 构建 Hadoop ETL 实践(五):数据抽取
Kettle 数据抽取概览、变化数据捕获、使用 Sqoop 抽取数据原创 2020-09-29 14:37:17 · 5689 阅读 · 1 评论 -
Kettle 构建 Hadoop ETL 实践(四):建立 ETL 示例模型
业务场景、Hive 相关配置、建立数据库表、装载日期维度数据原创 2020-09-04 18:03:37 · 3025 阅读 · 1 评论 -
Kettle 构建 Hadoop ETL 实践(三):Kettle 对 Hadoop 的支持
Hadoop 相关的步骤与作业项、连接 Hadoop、导入导出 Hadoop 集群数据、执行 HiveQL 语句、执行 MapReduce、提交 Spark 作业原创 2020-09-01 15:26:57 · 7428 阅读 · 13 评论 -
Kettle 构建 Hadoop ETL 实践(二):安装与配置
Kettle 安装、配置、使用资源库原创 2020-08-24 18:18:05 · 3498 阅读 · 0 评论 -
Kettle 构建 Hadoop ETL 实践(一):ETL 与 Kettle
ETL 基础、ETL 工具、Kettle 简介原创 2020-08-13 18:21:32 · 8878 阅读 · 0 评论 -
Kettle 工具 —— Spoon、Kitchen、Pan、Carte
Spoon、Kitchen、Pan、Carte原创 2020-05-25 10:39:42 · 8776 阅读 · 1 评论 -
Kettle 数据库连接中的集群与分片
Kettle 数据库连接中的集群与分片原创 2020-05-21 17:22:49 · 2095 阅读 · 0 评论 -
彻底搞清 Kettle 数据分发方式与多线程
彻底搞清 Kettle 数据分发方式与多线程原创 2020-05-20 16:58:50 · 6512 阅读 · 1 评论 -
Pentaho Work with Big Data(八)—— kettle 集群
kettle 集群原创 2016-04-18 22:14:07 · 5196 阅读 · 2 评论 -
Pentaho Work with Big Data(七)—— 从 Hadoop 集群抽取数据
从 Hadoop 集群抽取数据原创 2016-04-15 13:30:59 · 7303 阅读 · 0 评论 -
Pentaho Work with Big Data(六)—— 使用 Pentaho MapReduce 生成聚合数据集
使用 Pentaho MapReduce 生成聚合数据集原创 2016-04-14 16:22:48 · 3626 阅读 · 0 评论 -
Pentaho Work with Big Data(五)—— 格式化原始 web 日志
格式化原始 web 日志原创 2016-04-13 18:17:52 · 5166 阅读 · 0 评论 -
Pentaho Work with Big Data(四)—— 转换 Hive 里的数据
转换 Hive 里的数据原创 2016-04-13 10:44:50 · 1962 阅读 · 0 评论 -
Pentaho Work with Big Data(三)—— 向 Hadoop 集群导入数据
向 Hadoop 集群导入数据原创 2016-04-12 15:22:47 · 3028 阅读 · 0 评论 -
Pentaho Work with Big Data(二)—— Kettle 提交 Spark 作业
Kettle 提交 Spark 作业原创 2016-04-08 16:09:37 · 10498 阅读 · 0 评论 -
Pentaho Work with Big Data(一)—— Kettle 连接 Hadoop集群
Kettle 连接 Hadoop集群原创 2016-04-07 16:10:49 · 18947 阅读 · 5 评论