
大数据
tomalun
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Hbase库亿级大数据性能测试
测试环境配置信息Ambari+HDP大数据平台,5个节点服务器CPU配置:16核 Intel 2.20GHz操作系统:CentOS7.7/Linux x86_64HDFS空间:4TBHDFS文件备份数:3节点Hbase MASTER和REGIONSERVERS各一个测试数据模型模拟某酒店顾客信息表1个列族,33列字段,目标数据量1亿+一、新增数据性能单条数据插入,平均不到250条/秒,每1000条需要4秒多,平均每条耗时4毫秒本地往服务器批量插入数据,平均在...原创 2020-08-24 15:44:13 · 4603 阅读 · 0 评论 -
Apache Flink概念和术语汇总
【Unbounded stream】无界流有定义流的开始,但没有定义流的结束。它们会无休止地产生数据。无界流的数据必须持续处理,即数据被摄取后需要立刻处理。我们不能等到所有数据都到达再处理,因为输入是无限的,在任何时候输入都不会完成。处理无界数据通常要求以特定顺序摄取事件,例如事件发生的顺序,以便能够推断结果的完整性。【Bounded stream】有界流有定义流的开始,也有定义流的结束。有界流可以在摄取所有数据后再进行计算。有界流所有数据可以被排序,所以并不需要有序摄取。有界流处理通常被.原创 2020-05-21 15:04:11 · 471 阅读 · 0 评论 -
大数据ETL工具kettle与sqoop对比分析
sqoop有两个版本:sqoop1和sqoop2,sqoop2功能比sqoop强一些,但sqoop2产品不成熟,不适合生产环境使用,且CDH和Ambari HDP都默认集成sqoop1,所以不考虑sqoop2。本文仅比较kettle和sqoop1:对比项 Kettle Sqoop1 适用场景 数据ETL,简单或复杂的数据抽取、数据转换、数据清洗、数据过滤、数据同步。...原创 2020-04-21 19:51:15 · 10235 阅读 · 0 评论 -
CDH大数据平台集成Apache Ranger安全管理框架解决方案
总体解决方案 基于apache Ranger开源项目源代码进行二次开发,实现支持CDH集成的Ranger安全管理系统。另外需要在CDH管理界面上配置部分参数。 本文档经过测试验证的CDH和ranger版本:CDH版本:6.3.2Apache Ranger版本:2.0.0一、ranger插件公共模块agent-common修改1、配置文件处理问题描述:C...原创 2020-04-13 16:11:03 · 8571 阅读 · 35 评论 -
Apache Ranger安全区介绍
本文主要介绍大数据安全管理系统Apache Ranger的安全区Security Zone,根据官方文档人工翻译而来。介绍 Apache Ranger为很多Hadoop组件服务和非Hadoop服务提供授权和访问审计服务,比如HDFS, Hive, HBase, YARN, Kafka, Storm, Knox, Atlas, NiFi, Solr等。另外,Apache Ra...原创 2020-04-01 16:49:15 · 1717 阅读 · 0 评论 -
Apache Atlas数据治理开源项目源代码解析
Apache Atlas版本号:2.0.0从官方网站下载Apache Atlas2.0.0版本源代码,用开发工具(如IntelliJ IDEA)打开。根目录结构一、3party-licenses 第三方组件许可,可以看出Atlas主要用到的第三方技术组件,绝大部分是前端技术组件,janusgraph和titan是图数据库组件,JanusGraph是Titan的继承...原创 2020-03-26 14:33:25 · 6289 阅读 · 6 评论 -
kettle实现MySQL数据库向hive数据仓库大数据同步经验分享
一、同步性能测试1、测试环境信息kettle:版本8.2,carte独立部署,内存参数-Xms1024m -Xmx4096mmysql数据库:8核CPU,CPU主频2.20GHz,16G内存,版本号5.7.25大数据环境采用CDH,包含HDFS、hive等组件CDH集群服务器(共4台):8核CPU,CPU主频2.20GHz,16G内存,CDH版本5.14.42、性能测试结果...原创 2020-01-15 14:06:30 · 3294 阅读 · 0 评论